Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks
Paper • 1908.10084 • Published • 14
How to use LeeGH04/klue-roberta-base-klue-sts-mrc with sentence-transformers:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("LeeGH04/klue-roberta-base-klue-sts-mrc")
sentences = [
"미국에서 두 번째로 많은 유학생 국적은?",
"박근혜 대통령이 17일 포항제철소 내 파이넥스 3공장을 찾은 것은 세계 제철 기술을 선도하는 핵심 사업이라는 점을 평가한 것이라고 포스코 측은 설명했다.파이넥스 3공장은 지난 1월 가동을 시작했다. 하루 5700, 연 200만의 쇳물을 뽑아내고 있다. 포스코 관계자는 “이곳에서 생산한 쇳물은 모두 제강공장에서 사용된다”며 “기존의 고로에서 나온 쇳물과 품질에 전혀 차이가 없다”고 설명했다. 포스코는 1992년 파이넥스 공법 기술 개발에 착수해 11년 만인 2003년 연 60만 규모의 1공장 가동을 시작했다.포스코 관계자는 “다른 철강업체들도 파이넥스와 같은 용선기술 개발에 나섰지만 모두 실패했다”며 “이에 해외 업체들로부터 기술수출 요청이 이어지고 있다”고 설명했다. 실제로 3공장 가동으로 유휴설비가 된 1공장 설비는 인도의 메스코스틸이 관심을 보여 지난 8월 설비 매각에 관한 양해각서(MOU)를 체결했다. 중국 충칭강철과 함께 추진 중인 연산 300만t 규모의 충칭 파이넥스 공장도 내년 중 첫 삽을 뜰 예정이다.포스코는 파이넥스 공법이 기존 고로 방식보다 생산비용이 저렴하고 환경친화적인 만큼 해외 수출이 확대될 것으로 기대하고 있다. 파이넥스는 고로 방식에 비해 황산화물(SOx)과 질소산화물(NOx) 배출량이 각각 60%, 85% 정도 적다. 회사 관계자는 “공장 설비의 85%를 국내 37개 중소기업에서 제작하기 때문에 해외에 수출하면 중소기업 동반성장 효과를 기대할 수 있다”고 강조했다.",
"한국 사람들은 종종 양 극단을 오간다. 교회에 나가면서 점을 보는가 하면, 절에 다니면서 정화수를 떠놓고 민간신앙을 지킨다. 산신에 치성을 드리면서 유교적인 제사를 지내기도 한다. 한옥에는 남방문화의 상징인 대청마루와 북방에서 유래한 온돌을 함께 만들었다. 한(恨)으로 진 응어리를 흥(興)으로 풀어낸다. 《극단의 한국인, 극단의 창조성》은 ‘극단’이란 열쇳말로 한국인의 기질을 분석한 책이다. 저자는 극단을 포용하는 한국인의 특징을 네 가지로 분류한다. 한국인은 극단과 극단을 수용하고, 극단을 넘나들고, 극단의 중간지대를 만들어 충돌을 피하고, 부분을 깨부수어서 더 큰 통합을 만들어낸다는 것이다. 저자는 “한국인은 서로 대척점에 있는 것들을 끌어안고, 나아가 여러 가지를 용광로에 넣고 융복합해서 새로운 것을 뽑아낸다”며 “이것이 한민족이 발전할 수밖에 없는 이유”라고 말한다.한국인은 ‘빨리빨리’를 ‘은근과 끈기’ 있게 하는 민족이다. 저자는 “어느 민족이 빨리빨리 하면서 완성도를 높일 수 있느냐”며 “억척스럽게 놀고 억척스럽게 일하는 사람들이 한국인”이라고 말한다. 동시에 “조선시대 궁에서는 500년을 하루도 빠짐없이 왕의 일거수일투족을 기록했고 백성들은 매일 논으로 나가 농사짓는 고역을 감당했다”며 “한국인은 하나를 시작하면 지치지 않고 오랜 기간 지속하는 끈기가 있는 사람들”이라고 분석한다. 서로 상충돼 보이는 두 가지 기질이 공존하는 것이다.저자는 우리말에도 극단을 포용하는 문화가 반영됐다고 본다. 나들이, 빼닫이, 여닫이 등 반대되는 요소를 하나로 묶은 단어가 수없이 많다는 게 저자의 설명이다. 한국의 음식 문화도 양 극단을 넘나든다. 정착의 산물인 발효식품이 유난히 발달한 한편 겉절이, 상추쌈 같은 자연 상태의 음식을 그대로 즐기기도 한다. 오래 끓이는 뚝배기와 한순간에 파르르 끓어오르는 양은냄비를 모두 애용한다.한국인의 창조 유전자는 때로 적극성으로 표출된다. 해외에 나가보면 어딜 가도 한 번은 한국 사람을 마주칠 만큼 한국인들은 세계 곳곳에 퍼져 있다. 미국 내 유학생 수도 중국 인도에 이어 세 번째로 많다. 어디 이뿐일까. 유대인은 세계 60여 개국에 흩어져 살고, 중국인은 100여 개국에서 이민자로 살고 있는데 인구가 고작 5000만명에 불과한 한국 사람들은 175개국에 삶의 터전을 잡았다. 저자는 “새로운 것에 대한 호기심과 굽힐 줄 모르는 도전정신이 만들어낸 결과”라며 “가진 것이라고는 맨몸뿐인 사람들이 근면과 성실로 세계 곳곳을 파고들고 있다”고 말한다.",
"보험상품도 기프티콘 주고받는다면 ….최진환 현대라이프생명 대표. 대형마트에서 보험상품을 판매하고 최근에는 자판기에서도 보험상품을 팔기 시작해 주목을 받고 있는데. 20, 30대를 겨냥해 보험상품을 선물하는 방안도 구상하고 있다고. 휴대폰으로 기프티콘을 주고받는 것처럼 보험상품 기프티콘도 주고받을 날이 올지.박원순 “저의 재선을 의심하는 것 같다”19일 서울시청 브리핑룸. 박원순 시장이 ‘서민 주거안정 대책’을 발표한 뒤 한 기자가 “재선 여부와 상관없이 계획을 추진하는 데 무리가 없겠느냐”고 질문. 2018년까지 달성하겠다는 것은 재선을 염두에 둔 공약 아니냐는 얘기. 박 시장은 “저의 재선에 상당한 의문을 갖고 계신 것 같다”면서….KT 광고 속 콧수염 인형은 ‘지드래곤’?KT가 방영 중인 ‘올레 광대역 LTE-지하철편’ 광고가 논란. 모자를 삐딱하게 쓰고 콧수염을 기른 아저씨가 “광대역, 빨라요 빨라”라고 말하자 KT 모델이 “모든 지하철 안에서 다 되느냐?”고 묻고 “안 되는구나”라고 말하는데, 이 아저씨가 LG유플러스 광고 모델인 지드래곤을 닮았으니.제프 베저스의‘언론 마법’은 통할까?"
]
embeddings = model.encode(sentences)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [4, 4]This is a sentence-transformers model finetuned from LeeGH04/klue-roberta-base-klue-sts. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: RobertaModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
'후속 공정에서 추가 비용 발생이 예상되는 설비를 주문한 나라는?',
'삼성중공업이 지난 1분기에 대규모 적자를 냈다. 해양플랜트 프로젝트의 잠재적 손실에 대비해 대규모 충당금을 쌓았기 때문이다. ▶본지 4월23일자 A13면 참조 삼성중공업은 1분기에 매출 3조4311억원, 영업손실 3625억원, 당기순손실 2724억원을 기록했다고 25일 공시했다. 작년 1분기에 4402억원의 영업이익과 3005억원의 당기순이익을 냈던 것과 비교하면 큰 폭으로 적자전환했다. 매출은 전년 동기 대비 11.7% 감소했을 뿐인데도 이익이 크게 줄어든 이유는 해양플랜트 프로젝트 손실에 대비해 약 5000억원의 충당금을 쌓았기 때문이라고 회사 측은 설명했다. 앞서 지난 2월부터 삼성중공업의 해양플랜트 프로젝트와 관련해 경영진단을 진행한 삼성그룹 컨트롤타워인 미래전략실은 대규모 부실이 있다고 판단하고 충당금을 쌓도록 했다. 삼성중공업 관계자는 “2012년에 수주한 호주 인펙스프로젝트의 익시스(Ichthys) 해양가스처리설비(CPF)와 지난해 수주한 나이지리아 에지나(Egina) 부유식 생산저장하역설비(FPSO) 등 2건의 해양플랜트 공사에서 손실이 예상된다”고 말했다. 그는 “인펙스프로젝트의 CPF는 상세설계 등 후속 공정에서 사양이 바뀌면서 작업 물량과 비용이 증가했으며, FPSO는 나이지리아 현지에서 생산 비용이 늘어날 것으로 보인다”고 덧붙였다. 삼성중공업은 2건의 해양플랜트 프로젝트 외에 다른 프로젝트는 정상적으로 진행되고 있다고 밝혔다. 회사 관계자는 “예상 손실을 1분기에 반영한 만큼 2분기부터는 경영 실적이 정상 수준으로 회복할 것”이라고 내다봤다.삼성중공업은 이날 실적전망 공시를 통해 올해 매출이 14조6000억원, 법인세 비용 차감 전 순이익이 2000억원 정도일 것이라고 밝혔다.',
'차입금 갚기가 벅찬 한계기업 가운데 대기업이 늘면서 부실위험을 ‘대형화’하고 있다는 경고가 나왔다. 대기업 부실이 현실로 닥칠 경우 전체 자금시장의 불안으로 번질 수 있다는 우려다. LG경제연구원은 3일 ‘부실위험 기업의 대형화가 금융회사 건전성을 떨어뜨리고 있다’는 제목의 보고서에서 국내 금융회사의 부실자산 규모가 올 들어 지난 9월 말까지 6조8000억원 늘어난 39조8000억원에 달했다며 이같이 분석했다. 이한득 연구위원은 “올 들어 증가한 부실자산은 대부분 은행에서 발생했는데 대기업 대출이 특히 문제가 됐다”고 설명했다. 은행 부문의 경우 대기업의 부실채권 증가폭은 올 들어 9월까지 8조5000억원에 달해 지난해 같은 기간의 3조2000억원을 훨씬 웃돌았다. 같은 기간 중소기업의 부실채권 증가폭은 10조4000억원으로 전년 동기와 동일했다. 보고서는 올 들어 대기업의 부실 정도가 커지고 있다며 중소기업은 글로벌 금융위기 당시 구조조정이 상당히 진행된 반면 대기업은 최근에야 부실이 현실화되기 시작했기 때문이라고 분석했다. 이자보상배율 1을 밑돌아 영업이익으로 이자도 갚지 못하는 한계기업을 살펴봐도 대형화 추세가 두드러졌다. 전체 상장기업의 차입금 가운데 한계기업 차입금이 차지하는 비중은 2005년 13.3%에서 올해 상반기 34.0%로 확대됐다. 한계기업의 평균 차입금이 같은 기간 1270억원에서 6799억원으로 5.4배 뛴 데 따른 것이다. 한계기업의 차입금 가운데 대기업이 차지하는 비중이 93.2%에서 99.1%까지 치솟으면서 개별 부실의 덩치 자체가 커졌다. 이 연구위원은 “상장사 가운데 한계기업의 차입금은 대부분 대기업이 갖고 있는 셈”이라며 “1개 대기업의 부실은 25개 중소기업의 부실과 비슷할 정도로 시장에 미치는 영향이 크다는 게 문제”라고 우려했다.보고서는 위험을 최소화하려면 선제적인 구조조정이 해답이라며 부실 가능성이 높은 기업을 선별해 추가적인 자금 공급을 억제해야 부실 확산을 막을 수 있다고 지적했다.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
EmbeddingSimilarityEvaluator| Metric | Value |
|---|---|
| pearson_cosine | 0.8029 |
| spearman_cosine | 0.8157 |
sentence_0 and sentence_1| sentence_0 | sentence_1 | |
|---|---|---|
| type | string | string |
| details |
|
|
| sentence_0 | sentence_1 |
|---|---|
2012년에 부일장학회의 주식반환에 대해 기각 결정을 내린 재판부는? |
진실규명 결정을 받은 김지태의 유가족들은 2010년 6월에야 법원에 정수장학회와 국가를 상대로 낸 주식양도 등 청구소송을 냈다. 김씨 측은 "박 전 대통령이 사망하고 난 이후 1980년에 토지 반환청구 의사를 표시했고, 과거사정리위원회의 진실규명 결정을 송달받은 이후 손해배상을 청구한 것이므로 공소시효가 남아있다"고 주장했다. |
투자의 귀재'라 불리는 사람이 올해 번 돈은 얼마인가? |
올해 전 세계에서 누가 가장 많은 돈을 벌었을까.미국 경제매체 마켓워치는 ‘투자의 귀재’ 워런 버핏 벅셔해서웨이 회장이 올해 세계에서 가장 많은 돈을 벌었다고 18일(현지시간) 보도했다. 스위스 자산정보업체 웰스엑스(Wealth-X)와 UBS 은행의 조사 결과 올초 464억달러였던 버핏의 자산이 127억달러(약 13조4500억원) 늘어 지난 11일 기준 591억달러가 됐다. 하루에 3700만달러(약 392억원)를 벌어들인 것이다. 빌 게이츠 마이크로소프트 회장은 726억달러의 자산을 보유해 1위 부자 자리를 지켰지만, 올해 버핏보다 적은 115억달러를 벌어 ‘올해 돈 많이 번 사람 순위’에서는 2위에 머물렀다.3위는 자산이 114억달러 증가한 카지노 업계의 거물 셸던 애델슨 라스베이거스샌즈 회장이 차지했다. 애델슨 회장은 지난 2월 방한해 “한국에 내국인 출입이 가능한 ‘오픈 카지노’ 설립 허가가 나면 40억 |
DDP를 설계한 건축가의 출신 국가는? |
옛 서울 동대문운동장 부지에 들어선 ‘동대문디자인플라자(DDP)’가 내달 21일 개장을 앞두고 파격적 위용을 드러냈다. 설계 당시부터 뜨거운 찬반 논란과 함께 화제를 모았기 때문에 준공 이후 서울의 ‘글로벌 명물 건축’으로 부상할 수 있을지 관심이 쏠리고 있다. 영국의 세계적 건축가인 자하 하디드(이라크 출신 여성건축가)가 국제현상공모를 통해 건축설계를 맡았다. 미확인 비행물체(UFO)가 연상될 정도로 이색적인 ‘비정형 건물(형태가 일정치 않은 건물)’이어서 건축계에 큰 파장을 일으켰다. 동대문 일대의 역사성과 지역성이 무시된 독불장군형 디자인이란 혹평과 미래 동대문의 발전상이 함축된 창조성이 돋보인다는 호평이 엇갈리면서 한동안 논쟁이 뜨거웠다. 건물의 비정형성이 워낙 강해 시공사인 삼성물산도 공사에 어려움이 많았다. 시공과정에서 첨단기술 적용은 물론 적잖은 진기록도 쏟아졌다. 같은 크기의 일반 건물(정형 건물)에 비해 공사기간도 거의 2배 이상(4년8개월) 걸렸다. 건물 외장을 감싸고 있는 알루미늄 패널(가로, 세로 1.5m)만도 4만5133장이 쓰였다. 패널이 모두 제각각이어서 공장 생산이 아닌 별도 제작으로 맞춰 붙였다. 건물 외관 면적이 축구장 3배 크기에 달했다. 삼성물산은 국내 공공공사 최초로 3차원 입체설계 방식인 BIM을 활용해 이들 패널을 제작했다. 비정형 외관의 노출 콘크리트 작업도 초고층 빌딩을 능가하는 난공사였다. 이진배 삼성물산 PM(프로젝트 매니지먼트) 상무는 “BIM 모델을 통해 새로운 거푸집 공법을 개발해 적용했고, 각기 다른 곡선과 형태로 설계된 실내 공사에서는 실물 크기 모형을 수차례 제작해 설계 원안의 느낌을 최대한 살렸다”고 말했다. |
MultipleNegativesRankingLoss with these parameters:{
"scale": 20.0,
"similarity_fct": "cos_sim"
}
per_device_train_batch_size: 16per_device_eval_batch_size: 16num_train_epochs: 1batch_sampler: no_duplicatesmulti_dataset_batch_sampler: round_robinoverwrite_output_dir: Falsedo_predict: Falseeval_strategy: noprediction_loss_only: Trueper_device_train_batch_size: 16per_device_eval_batch_size: 16per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 1eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 5e-05weight_decay: 0.0adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1num_train_epochs: 1max_steps: -1lr_scheduler_type: linearlr_scheduler_kwargs: {}warmup_ratio: 0.0warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falseuse_ipex: Falsebf16: Falsefp16: Falsefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 0dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Falseignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torchoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Nonehub_always_push: Falsegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseinclude_for_metrics: []eval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters: auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Nonedispatch_batches: Nonesplit_batches: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: Falseneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseeval_use_gather_object: Falseaverage_tokens_across_devices: Falseprompts: Nonebatch_sampler: no_duplicatesmulti_dataset_batch_sampler: round_robin| Epoch | Step | Training Loss | spearman_cosine |
|---|---|---|---|
| -1 | -1 | - | 0.8157 |
| 0.4558 | 500 | 0.1618 | - |
| 0.9116 | 1000 | 0.1131 | - |
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}