Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks
Paper • 1908.10084 • Published • 14
How to use Morgan9803/klue-roberta-base-klue-sts-mrc with sentence-transformers:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("Morgan9803/klue-roberta-base-klue-sts-mrc")
sentences = [
"조세피난처 프로젝트 4차 명단에 포함된 사람의 이름은?",
"● 워런 버핏과의 점심식사 2008년 65만달러를 내고 워런 버핏과 ‘자선 점심식사’를 했던 저자가 버핏과의 대화를 통해 진정한 가치투자자로 변하는 과정을 기록했다. (가이 스파이어 지음, 이건 옮김, 이레미디어, 292쪽, 1만5500원) ● 마케팅 미래 지도를 바꾸다 마케팅과 기술이 결합한 역사를 되돌아본다. 기술이 미래의 마케팅 생태계를 어떻게 바꿀 것인지 다양한 사례를 바탕으로 예측한다. (박세정 지음, 아틀라스북스, 251쪽, 1만4000원) ● 왜 지금 드론인가 군사용으로 시작해 일상에 퍼지고 있는 드론(무인기)을 상업적 시각에서 분석했다. 드론 제작사 탐방과 드론 제작자 인터뷰 등을 통해 드론에 관한 다양한 정보를 소개한다. (편석준 외 지음, 미래의창, 232쪽, 1만2000원)● 안 팔리는 책 VS 잘 팔리는 책 출판 마케팅의 원리와 사례를 설명한다. 출판 관계자들이 갖고 있던 마케팅에 대한 오해를 지적하고 앞으로 출판시장을 전망한다. (한대웅 지음, 다음생각, 439쪽, 1만8000원) ● 최초의 이슬람 제국 우마이야 중앙아시아부터 모로코까지 현재 이슬람권으로 분류되는 나라들이 어떻게 이슬람에 복속됐는지 조명한다. 이슬람뿐만 아니라 기독교의 변천사도 살핀다. (김승철 지음, 좋은땅, 330쪽, 1만8000원) ● 권오길이 찾은 발칙한 생물들 곰팡이만 먹지만 책을 망친다고 오해를 사는 책벌레, 죽을 때까지 알을 보살피는 문어, 배가 고프면 자기 꼬리를 무는 갈치 등 우리 주변에서 흔히 볼 수 있는 동·식물의 생태를 고유의 우리말 표현으로 알기 쉽게 풀어 설명한다. (권오길 지음, 을유문화사, 308쪽, 1만3000원)",
"전두환 전 대통령의 장남 전재국 시공사 대표(사진)가 조세피난처인 영국령 버진아일랜드에 페이퍼컴퍼니(유령회사)를 설립한 사실이 드러났다. 오는 10월 전 전 대통령의 비자금을 추징할 수 있는 시효가 끝나기 때문에 검찰 수사도 속도를 낼 것으로 전망된다. ▶관련기사 A6면인터넷 매체인 뉴스타파는 3일 서울 태평로 프레스센터에서 기자회견을 열고 전 대표가 조세피난처에 페이퍼컴퍼니를 설립한 것을 확인했다고 발표했다. 뉴스타파와 국제탐사보도언론인협회(ICIJ)가 공동 작업한 ‘조세피난처 프로젝트’ 4차 명단에는 전 대표 한 명만 포함됐다.뉴스타파에 따르면 전 대표는 2004년 7월28일 버진아일랜드에 ‘블루 아도니스(Blue Adonis Corporation)’라는 페이퍼컴퍼니를 설립했다. 전 대표는 이 회사의 단독 주주이자 등기이사로 올라가 있다. 이사회 결의서에 쓰인 주소는 그가 대표로 있는 출판사인 시공사 본사 주소(서울 서초동)와 일치한다. 전 대표가 페이퍼컴퍼니를 설립한 시점이 이른바 ‘전두환 비자금 사건’이 터진 시기여서 전 대표가 부친의 비자금을 숨길 목적으로 페이퍼컴퍼니를 만든 게 아니냐는 의혹이 제기되고 있다. 이와 관련, 전 대표는 보도자료를 내고 “부친과는 전혀 관련 없는 사실이며 탈세나 재산 은닉을 목적으로 한 것이 아니다”는 입장을 밝혔다. 그는 “이 일은 1989년 미국 유학생활을 일시 중지하고 귀국할 당시 가지고 있던 학비 생활비 등을 관련 은행의 권유에 따라 싱가포르로 이전하는 과정에서 발생한 것”이라며 “국내 재산을 외국으로 반출한 사실이 없고 현재 외국에 보유 중인 금융자산도 전혀 없다”고 해명했다. “이번 일과 관련해 관계기관의 조사가 이뤄진다면 성실히 응하겠다”고 강조했다.",
"2007년 험프리스는 캐나다 차트에서도 후순위에 머물렀고, 대체선수로 투입됐던 2006년 동계올림픽에서도 이렇다 할 주목을 받지 못했다. 한때 약혼남 댄 험프리스의 국적을 따라 영국 국가대표로 나서는 방안을 고민하기도 했으나 이내 캐나다팀에 남기로 마음먹고, 봅슬레이 훈련원 선수로 계약을 맺어 일자리를 얻었다 이후 독일 알텐베르크에서 열린 2008년 FIBT 세계 선수권대회 봅슬레이-스켈레톤 단체 혼성종목에서 은메달을 차지하는 데 기여하였다.\n\n2009-10 봅슬레이 월드컵 시즌에서는 7위에 오른 것을 시작으로, 총 8차례의 레이스 중 우승 1회, 메달권 진입 2회, 6위권 진입 1번 등 전반적으로 좋은 기록을 보였다. 이 같은 월드컵 성적을 발판삼아, 2010년 동계 올림픽의 여자 2인승에서는 히터 모이스와 함께 생애 첫 올림픽 금메달을 거머쥐게 되었다. 한편 캐나다의 셰일리앤 브라운과 헬렌 어퍼튼 팀이 은메달을 차지하면서 캐나다가 한 종목에서 두 개의 메달을 동시에 따는 첫번째 사례로 남게 되었다. 올림픽 우승은 험프리의 어린 시절 꿈을 완성하는 사건이기도 했는데, 결승 직후 험프리는 \"아직 뭐라고 말할 수 있을 것 같진 않고요, 최선을 다했습니다. 어린 시절 세웠던 목표가 이뤄졌으니 놀랍습니다.\"라고 밝혔다. \n\n2010년 동계 올림픽이 끝난 뒤에는 두 시즌동안 세계 선수권대회와 월드컵 투어에서 이렇다 할 성적은 보이지 못했다. 전반적으로는 10위권 진입을 계속해서 이뤄내며 종합순위 3위로 시즌을 마칠 정도였으나, 실로 의미있는 기록은 2010-11 봅슬레이 월드컵에서 딱 한번 메달권에 들었을 뿐이었다. 2011-12 봅슬레이 월드컵에서는 이와는 반대로 우승 세번을 비롯한 메달권 진입 네번을 이뤄냈음에도 불구하고 전체순위로는 5위에 머물렀다."
]
embeddings = model.encode(sentences)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [4, 4]This is a sentence-transformers model finetuned from Morgan9803/klue-roberta-base-klue-sts. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: RobertaModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
'동백꽃 필 무렵이 방송되었던 해는?',
'네이버 시리즈온이 연말연시를 맞아 ‘릴레이7 영화선물’ 이벤트를 진행한다. 이번에 진행하는 ‘릴레이7 영화선물’은 다가오는 2020년 1월 5일까지 네이버 시리즈온에서 제공하는 인기 영화를 무료로 볼 수 있는 이벤트다. 대표적인 크리스마스 영화로 꼽히는 <러브 액츄얼리> 무료 이벤트가 크리스마스 당일까지 진행되는데 이어, <유열의 음악앨범>, <사자>, <캐롤>, <장난스런 키스>, <베일리 어게인> 등 다양한 장르의 7가지의 영화를 일정 기간 동안 무료로 감상할 수 있다. 뿐만 아니라 2019년 인기 방송 할인 이벤트도 함께 진행된다. 오는 31일까지 드라마 <동백꽃 필 무렵>, <눈이 부시게>, <멜로가 체질>과 예능 <나 혼자 산다>, <아는 형님> 등 올 한해 특별히 사랑받은 드라마와 예능 프로그램, 애니메이션을 30%까지 할인된 가격으로 즐길 수 있다. 이 외에 2019년 인기영화 100 대 할인전에서는 ‘하반기 인기 한국영화’,’ 올 타임 스테디셀러’, ‘가장 많은 사랑을 받은 애니메이션’ 등을 최대 반값에 감상할 수 있다. 코미디, 로맨스, 다큐멘터리 등의 작품을 파격적인 할인 가격으로 선보이기에 영화를 좋아하는 사람들에게는 놓칠 수 없는 절호의 기회다. 네이버 시리즈온 박수연 리더는 “네이버 시리즈온을 이용하는 분들이 올 한해를 따뜻하게 마무리하고 신년을 기분 좋게 시작할 수 있도록 연말연시 이벤트를 준비했다”며 “가족과 함께 볼 수 있는 가슴 뭉클한 작품부터 연인과 보기 좋은 달달한 로맨스, 친구와 즐겁게 웃을 수 있는 유쾌한 코미디까지 다양한 작품들을 준비했으니 많은 관심을 부탁드린다”고 말했다. 한편, 이벤트에 대한 자세한 내용은 네이버 시리즈온 사이트와 모바일 앱에서 확인할 수 있다.',
'정신과 전문의 하지현에 의하면 좋은 부모는 오히려 아이에게 의존하지 않는 부모이다. 자신의 기대를 아이에게 투사하거나, 자신의 미래나 행복을 포기하면서까지 자식에게 집중하는 것은 잘못된 것이다. 부모가 불안해하거나 자기 삶에 행복을 느끼지 못하는 경우 자녀 교육에도 좋지 않은 영향을 끼칠 수 있다.\n\n최근 들어 아버지의 경우 아이들과 친구처럼 지내려고 하는 경우가 많다. 이는 긍정적인 현상이다. 그러나 분명한 선은 존재해야 하는데, 아버지가 권위적일 필요는 없지만 권위는 있어야 한다. 하지현은 이에 대해 "아빠는 방향을 제시하고 넘어서는 안될 선과 사회적 규율을 내재화해서 훗날 아이가 독립된 성인으로 살아가는 데 필요한 기본적인 내용을 일러주는 ‘선배’ 역할을 할 수 있어야" 한다고 하였다.\n\n자녀가 성장하면서 부모와 다른 의견을 가지거나 틀린 선택을 하는 경우도 있는데 부모가 이런 것을 막으려 한다면 자녀가 독립심을 기르거나 자존감을 기르는 데 문제가 될 수 있다.\n\n칭찬을 할 때도 주의를 기울여서 올바른 방향으로 해야 한다. "항상", "언제나", "늘"과 같은 표현은 완벽을 의미하기 때문에 자녀에게 부담이 될 수 있고 역효과를 불러올 수 있다.\n\n너무 완벽한 부모는 자녀들에게 좌절감을 가져다줄 수 있다. 과거에 비해 저성장 시대가 되면서 자녀들이 부모 세대처럼 성공하기는 어려워졌다. 이러한 상황에서 너무 완벽한 모습만을 보여주는 부모들은 자식들을 지치게 하고 포기하게 만들 수 있다.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
EmbeddingSimilarityEvaluator| Metric | Value |
|---|---|
| pearson_cosine | 0.8039 |
| spearman_cosine | 0.8173 |
sentence_0 and sentence_1| sentence_0 | sentence_1 | |
|---|---|---|
| type | string | string |
| details |
|
|
| sentence_0 | sentence_1 |
|---|---|
지류상품권으로 메가박스 홈페이지 영화 예매를 하려면 무엇으로 바꿔야 하는가? |
코로나19 확산으로 비대면 소비가 크게 늘어나면서 온라인 거래가 급증하고 있다. 특히 이번 추석 이후 기프티콘, 각종 상품권 등 온라인 선물 서비스가 더욱 인기를 끌며 모바일상품권 이용이 활발해지는 추세다. 이러한 트렌드에 맞춰 라이프시어터 메가박스(대표 김진선)도 고객 편의 증진을 위해 컬쳐랜드와 해피머니, 북앤라이프 등 대표적인 문화상품권 3종에 대한 온라인 결제 서비스를 오픈했다고 밝혔다. 메가박스 현장과 온라인에 모바일상품권 결제를 새롭게 추가하고, 영화 예매는 물론 팝콘, 콜라 등 매점 상품도 이용 가능하도록 했다. 지류상품권도 온라인까지 사용처를 확대했다. 새롭게 오픈한 모바일상품권 결제 서비스는 각 상품권 홈페이지 계정 연동 없이 PIN번호와 인증번호 입력만으로도 결제가 가능하다. 메가박스는 지난 7월 멀티플렉스 3사 중 가장 먼저 해피머니 모바일상품권 서비스를 오픈했고 이후 컬쳐랜드, 북앤라이프 모바일상품권도 순차적으로 적용해 문화상품권 온라인 결제 서비스를 완비하게 됐다. 또한 기존에는 지류상품권의 경우 매표소에 직접 상품권을 제시해야 영화를 예매할 수 있었지만, 현재는 메가박스 홈페이지 및 모바일앱 등 온라인으로도 영화 예매가 가능해졌다. 각 상품권 홈페이지에서 지류상품권을 상품권 전용 캐쉬로 전환 후 메가박스 온라인 결제 시 해당 캐쉬를 적용하면 된다. 현장 매표소나 키오스크에서도 각 상품권의 모바일앱 실행 후 바코드 인식을 통해 캐쉬 결제가 가능하다. |
리가 직접 문화를 경험하며 연구했던 대상은? |
리의 가장 잘 알려진 작품들 중 하나는 프로젝트들 (1997-2001)이다. 이는 리가 재학 중 드래그 퀸, 펑크, 스윙 댄서, 라티노, 힙합 뮤지션, 스케이트 보더, 레즈비언, 직업인, 한국인 여고생들 등 다양한 사람들과 찍은 사진 시리즈이다. 그녀는 미국의 다양한 문화와 사회 계층들에 자기 자신을 대입하며 그 문화들 속 존재하는 사람들의 일부가 되었다. 포인트-앤드-슛 카메라를 통해 사람들의 모습을 포착하며 그들의 생활을 기록하였다. 리는 아름다운 사진을 찍는 것보다 정체성에 대해 탐구할 수 있는 사진들을 만들어 내는 것이 작가로서의 목표이다. 이 프로젝트를 진행하기 위해 그녀는 특정한 문화계층을 선정하고 그 문화에 속한 사람들의 옷차림을 자기 자신에게 입혔다. 또한 그 사람들과 함께 어울리며 서너달 동안 그녀의 친구, 무리 속 사람들이나 지나가는 행인에게 사진을 찍어달라고 요청하였다. |
게임 이용자가 해적을 잡을 때 현상금을 많이 받을 수 있는 곳은? |
아이슬란드 개발사 CCP 게임즈의 이브 온라인은 슈퍼캐리어 업데이트 및 현상금 수령 방식 또 교전 감시 시스템 등을 변경하는 업데이트를 발표했다. ‘Vat Out of Hel’ 업데이트를 통해 캡슐리어는 이제 로컬 플릿의 슈퍼캐리어에서 복제되어 함선에 바로 탑승해 전투에 참전할 수 있게 된다. 슈퍼캐리어 사이즈 및 비쥬얼 또한 업그레이드되었다. 역동적 현상금 시스템(DBS)을 널 시큐리티 우주에 새롭게 도입했다. 위험 구역에서 해적을 사냥할 경우 플레이어에게 더욱 더 값진 보상을 제공하는 반면 해적 활동이 통제된 항성계의 경우 현상금 지급 액수가 감소한다. 이러한 변화는 새로운 에덴이 이제 플레이어의 행동에 의해 역동적으로 움직이고 스스로 변화한다는 것을 보여준다. 이에 따라, 코퍼레이션들은 현재의 소득 수준을 유지하기 위해 영역을 효율적으로 활용해야 해야 한다. 교전 감시 시스템(ESS) 업데이트로 인해 더 이상 ESS를 선택적으로 설치할 수 없고 모든 널 시큐리티 항성계에 필수적으로 ESS가 설치된다. ESS의 위치가 공개되며 함급 제한을 지닌 액셀레이션 게이트를 통해 구조물로 접근할 수 있습니다. 좋은 스포츠맨십을 장려하기 위한 특별한 그리드 규칙이 있으며, 현재 참가 PvE 선수들에게 자동으로 지급되며 ESS로 저장되는 현상금은 이제 주 저장고와 예비 저장고 두개로 분할 되어 저장된다. 이러한 업데이트 외에도, 현재 지타 정거장의 레노베이션이 완료되었다. 슈퍼캐리어 비쥬얼 업데이트 제작과정이나 기타 비쥬얼 콘텐츠 관련 더 많은 정보를 얻고 싶다면2020년 11월 10일 저녁 8시 (한국시간)에 CCP트위치 에서 라이브 스트리밍을 시청할 수 있다. |
MultipleNegativesRankingLoss with these parameters:{
"scale": 20.0,
"similarity_fct": "cos_sim"
}
per_device_train_batch_size: 16per_device_eval_batch_size: 16num_train_epochs: 1batch_sampler: no_duplicatesmulti_dataset_batch_sampler: round_robinoverwrite_output_dir: Falsedo_predict: Falseeval_strategy: noprediction_loss_only: Trueper_device_train_batch_size: 16per_device_eval_batch_size: 16per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 1eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 5e-05weight_decay: 0.0adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1num_train_epochs: 1max_steps: -1lr_scheduler_type: linearlr_scheduler_kwargs: {}warmup_ratio: 0.0warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falseuse_ipex: Falsebf16: Falsefp16: Falsefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 0dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Falseignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torchoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Falsehub_always_push: Falsegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseeval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters: auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Nonedispatch_batches: Nonesplit_batches: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: Falseneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseeval_use_gather_object: Falseprompts: Nonebatch_sampler: no_duplicatesmulti_dataset_batch_sampler: round_robin| Epoch | Step | Training Loss | spearman_cosine |
|---|---|---|---|
| 0 | 0 | - | 0.8173 |
| 0.4558 | 500 | 0.1609 | - |
| 0.9116 | 1000 | 0.116 | - |
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Base model
Morgan9803/klue-roberta-base-klue-sts