SentenceTransformer based on shangrilar/klue-roberta-base-klue-sts

This is a sentence-transformers model finetuned from shangrilar/klue-roberta-base-klue-sts. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: shangrilar/klue-roberta-base-klue-sts
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False, 'architecture': 'RobertaModel'})
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
    '아이폰5의 화면 크기는?',
    '2011년 10월 애플 창업자 스티브 잡스가 세상을 떠났을 때 ‘잡스 후광’ 얘기가 나왔다. 후계자가 잘하든 못하든 잡스 영향력이 워낙 커서 애플이 한두 해는 잘 굴러갈 것이란 얘기였다. 실제로 애플은 작년 가을까지 1년 동안은 잘하는 듯했다. 주가도 천정부지로 치솟았다. 그러나 겨울로 접어들면서 분위기가 달라졌다. 잡스의 마술이 끝났다느니, 혁신이 멈췄다는 얘기가 나오기 시작했다.팀 쿡은 최고경영자(CEO)로 취임한 이후 깜짝 놀랄 만한 것을 보여주지 못했다. 쿡의 첫 번째 아이폰은 작년 가을에 내놓은 아이폰5라고 할 수 있다. 이 폰은 4인치로 화면이 커졌는데도 더 가벼워지고 더 얇아졌다. 디자인 측면에서는 혁신적이었다. 그러나 디자인 말고는 깜짝 놀랄 만한 게 없었다. 특히 구글지도를 대체한 애플지도가 문제가 됐다. 허겁지겁 탑재했던지 엉터리였다. 길이 구겨지고 다리가 끊기는 등 전혀 애플답지 않았다.시장을 선도하는 ‘카테고리 리더’로서 위상도 약해졌다. 애플은 어느 순간부터 삼성을 따라하기 시작했다. 삼성이 4인치, 5인치대의 큰 화면 갤럭시폰으로 인기를 끌자 3.5인치 아이폰 화면을 4인치로 키웠다. 아이패드도 마찬가지. 잡스는 생전에 7인치대 삼성 갤럭시탭에 대해 “D.O.A.(나오자마자 사망)”라고 악담을 했지만 그가 세상을 떠난 지 1년 후 애플은 7인치대 아이패드 미니를 내놓았다.따지고 보면 ‘애플의 혁신’은 ‘잡스의 마술’이었다. 잡스는 강력한 카리스마로 조직을 이끌었고 소비자 입장에서 디테일을 꼼꼼하게 챙겼다. 아이팟으로 음악시장을 혁신할 때 음반사업자들을 설득한 것도 잡스였고, 아이폰을 내놓기 전에 미국 이동통신사 AT&T를 설득한 것도 잡스였다. 반면 쿡은 세계 최대(가입자 7억명) 이동통신사인 차이나모바일을 설득하지 못해 중국 시장에서 고전하고 있다.경쟁사들이 이젠 할 만큼 한다는 점도 애플한테는 위협 요소다. 애플은 삼성이 특허를 침해했다며 핵전쟁급 소송을 벌였지만 실리도 챙기지 못한 채 삼성 위상만 높여줬다. 삼성은 스마트폰 1위 업체로 올라섰다. 작년 4분기엔 애플이 아이폰을 4780만대 판매한 반면 삼성은 스마트폰을 6000만대 이상(추정치) 팔았다. 태블릿 시장에서도 애플 독무대가 흔들리고 있다. 아이패드는 2010년 4월 발매 후 2~3년 동안 시장을 독점하다시피 했다. 경쟁사들이 수백 종의 태블릿 제품을 내놓고 덤볐지만 모두 참패했다. 그러나 작년 하반기부터 달라지고 있다. 넥서스7, 갤럭시노트10.1 등이 호평을 받고 있다. 올해는 안드로이드 진영의 공세가 더욱 거세지고 윈도 진영도 가세할 것으로 예상된다.애플이 애플TV로 혁신을 이어갈 것이란 얘기도 있다. 잡스가 애플TV에 대해 ‘취미’라고 말하면서도 말년에 심혈을 기울였고 쿡도 “큰 관심을 가지고 있다”고 말했으니 연말께 혁신적인 애플TV가 나올 가능성은 있다. 그러나 TV 시장은 삼성 LG 등이 이미 장악하고 있고 국가마다 케이블 사업자, 콘텐츠 사업자들과 협상해야 해 스마트폰과 달리 단숨에 세계 시장을 장악하긴 어렵다.',
    '애니메이션 전문 채널 애니원, 애니박스(대표: 곽영빈)이 오는 크리스마스를 맞아 크리스마스 이브(목)와 당일(금) 양일간 크리스마스 특집 방송을 방영한다. 다가오는 이번 크리스마스는 여느 때와는 달리 외출을 자제하면서 가족들과 안전하게 보내야 할 시기이다. 집에서 따뜻한 크리스마스 분위기를 즐길 수 있도록 애니박스, 애니원에서 크리스마스특집 방송을 준비했다. [애니원] ▷ 12월 24일(목) – 극장판 짱구는 못말려, 안녕 자두야3 등 방영 ▷ 12월 25일(금) – 극장판 도라에몽, 신 도라에몽 스페셜2기 등 방영 [애니박스] ▷ 12월 24일(목) – 극장판 뽀로로, 밍꼬발랄 프렌즈 등 방영 ▷ 12월 25일(금) – 뽀로로 동화나라, 라바 인 뉴욕, 라바 아일랜드 등 방영 애니원 채널에서는 ‘크리스마스 홈파티’ 컨셉으로 12월 24일(목) 11시부터 극장판 짱구는 못말려와 안녕 자두야3가 방영되고 크리스마스 당일인 12월 25일(금)에는 신작인 극장판 도라에몽-진구와 구름왕국과 신 도라에몽 시리즈를 오전 8시부터 만나볼 수 있다. 한편, 애니박스 채널에서는 ‘Merry 애니박스’ 컨셉으로 12월 24일(목) 오전 8시부터 극장판 뽀로로와 신작인 밍꼬발랄 프렌즈가 방영되고 크리스마스 당일, 12월 25일(금)에는 신작인 뽀로로 동화나라를 오전 8시에 첫 공개할 예정이다. 그 뿐만 아니라, 라바 시리즈와 극장판 짱구는 못말려까지 연속으로 만나볼 수 있다.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[1.0000, 0.6753, 0.0320],
#         [0.6753, 1.0000, 0.0451],
#         [0.0320, 0.0451, 1.0000]])

Training Details

Training Dataset

Unnamed Dataset

  • Size: 17,552 training samples
  • Columns: sentence_0 and sentence_1
  • Approximate statistics based on the first 1000 samples:
    sentence_0 sentence_1
    type string string
    details
    • min: 8 tokens
    • mean: 17.58 tokens
    • max: 41 tokens
    • min: 232 tokens
    • mean: 438.28 tokens
    • max: 512 tokens
  • Samples:
    sentence_0 sentence_1
    현재의 경기 상황을 나타내는 지표는 전월에 비해 몇 포인트 상승하였는가? 수출 부진이 이어지면서 산업생산이 3개월 연속 감소세를 나타냈다.30일 통계청이 발표한 ‘5월 산업활동동향’에 따르면 전체 산업생산은 전달에 비해 0.6% 줄었다. 지난 3월 이후 석 달 연속 감소세다.부문별로는 제조업 등이 포함된 광공업 생산이 전달보다 1.3% 감소했다. 통신·방송장비(22.1%)와 석유정제(3.0%)는 늘었지만 자동차(-3.7%)와 반도체(-4.8%) 등은 부진했다. 수출 감소 영향이 컸다. 반도체(-7.9%)와 자동차(-3.5%), 화학제품(-4.3%) 등 주력 품목의 수출이 모두 뒷걸음질 쳤다. 재고율(출하량 대비 재고 비율)은 127.3%로 전월보다 0.1%포인트 늘어났다. 2008년 12월(129.9%) 이후 77개월 만에 가장 높은 수치다. 제조업 평균 가동률은 0.7%포인트 떨어진 73.4%였다.현재의 경기 상황을 보여주는 경기동행지수 순환변동치는 0.5포인트 하락했다. 반면 향후 경기를 재는 잣대인 선행지수 순환변동치는 0.3포인트 상승했다. 김병환 기획재정부 경제분석과장은 “중동호흡기증후군(MERS·메르스)과 그리스 채무협상 등 대내외 위험요인이 확대돼 부진이 지속될 수 있다”며 “경제가 정상적 회복 궤도로 복귀할 수 있도록 추가경정예산 등 15조원 이상 재정 보강을 신속하게 추진하고 분야별 경제 활력 제고대책을 차질없이 추진하겠다”고 말했다.
    쉬베이훙의 조국의 2012년 경매시장 거래액은? 유럽 경제 위기에도 불구하고 세계 미술시장은 성장세를 이어가고 있다.프랑스 미술정보업체 아트프라이스닷컴이 최근 발표한 ‘2012년 세계 미술시장 분석’에 따르면 작년 세계 미술품 경매시장에는 122억달러(약 13조원)의 ‘뭉칫돈’이 몰렸다. 2011년의 115억달러보다 6% 정도 늘어난 규모다.지난해 경매시장에서 작품 거래액이 가장 컸던 작가는 앤디 워홀로, 3억2900만달러어치가 거래됐다. 앤디워홀재단이 작년 11월부터 경매를 통해 2만여점의 실크스크린 인쇄화, 회화, 콜라주, 판화, 사진 등을 팔았기 때문으로 풀이된다.장다첸(2억8722만달러), 파블로 피카소(2억8614만달러), 치바이스(2억7019만달러), 게르하르트 리히터(2억6280만달러), 쉬베이훙(1억7578만달러), 리커란(1억6679만달러), 마크 로스코(1억6678만달러), 프란시스 베이컨(1억5308만달러) , 푸바오스(1억5207만달러)도 낙찰총액 ‘톱10’에 들었다. 국내 작가로는 이우환(188위, 1000만달러) 김환기(257위, 689만달러) 박수근(292위, 597만달러) 등의 작품 거래액이 큰 것으로 조사됐다.국제미술시장에서 중국 작가들의 약진도 이어졌다. 작품 거래액 상위 10위권에 중국 작고 작가 장다첸(2위), 치바이스(4위), 쉬베이훙(6위), 리커란(7위), 푸바오스(10위) 등 5명이 이름을 올렸다.중국 경매시장도 50억달러로 국제시장의 41%를 차지하며 2년째 1위를 기록했다. 중국과 화교권 부유층 컬렉터들이 자국의 그림을 사들이면서 국제 미술계에 ‘차이나 파워’가 형성되고 있다고 전문가들은 분석하고 있다. 중국 다음으로 미국(27%) 영국(18%) 프랑스(4%)가 뒤를 이었다.
    켐코 스펙초월 전형 지원자들이 모든 과제에 대해 알게 되는 날은 언제인가? “캠코는 잠재역량을 지닌 인재를 뽑기 위해 스펙초월 전형을 도입하게 됐습니다.”최용성 캠코 인사팀장(사진)은 스펙초월 전형 도입 배경에 대해 이렇게 말했다. 최 팀장은 “학력보다 능력을 중시하는 ‘열린 채용’을 위해 채용 관행을 전면 개편했다”고 설명했다.스펙초월 전형 과제는 4개로 줄여 지원자들의 부담을 최소화하기로 했다. 다만 이름, 이메일, 생년월일만 기입하는 입사지원과 동시에 과제 2개가 주어진다. 이 과제는 6월2일 오후 6시까지 제출해야 한다. 나머지 과제 2개는 6월3일 오전 공지하며, 그날 모두 제출해야 한다.네 가지 과제를 제출하고 상호평가까지 수행해야 유효한 입사지원이 된다. 최 팀장은 “과제는 어떤 일이 있어도 제시된 시간을 엄수해야 한다”며 “형평성을 위해 미제출 땐 모두 탈락하게 된다”고 말했다. 캠코는 다른 공기업 스펙초월 전형에서 도입한 동영상 제작은 하지 않기로 했다. 지원자의 부담을 줄이기 위해서다. 특히 캠코는 과제 완수자 모두에게 5년차 미만의 선배 평가를 받도록 할 방침이다.캠코는 이번 채용을 통해 특별한 결격사유가 없는 한 인턴수료자 대부분을 정규직으로 전환할 예정이다. 지난해에는 60%였던 정규직 전환율을 올해는 90% 이상으로 높인다는 방침이다. 지난해 입사한 캠코 신입사원 60명 가운데 조기퇴사자는 2명에 불과했다.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "gather_across_devices": false
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • num_train_epochs: 1
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: round_robin

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: no
  • prediction_loss_only: True
  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1
  • num_train_epochs: 1
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.0
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • bf16: False
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • parallelism_config: None
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch_fused
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • project: huggingface
  • trackio_space_id: trackio
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • hub_revision: None
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: no
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • liger_kernel_config: None
  • eval_use_gather_object: False
  • average_tokens_across_devices: True
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: round_robin
  • router_mapping: {}
  • learning_rate_mapping: {}

Training Logs

Epoch Step Training Loss
0.4558 500 0.1572
0.9116 1000 0.1101

Framework Versions

  • Python: 3.12.12
  • Sentence Transformers: 5.1.2
  • Transformers: 4.57.2
  • PyTorch: 2.9.0+cu126
  • Accelerate: 1.12.0
  • Datasets: 4.0.0
  • Tokenizers: 0.22.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
1
Safetensors
Model size
0.1B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for jungmookkim/klue-roberta-base-klue-sts-mrc

Finetuned
(7)
this model

Papers for jungmookkim/klue-roberta-base-klue-sts-mrc