---
tags:
- sentence-transformers
- sentence-similarity
- feature-extraction
- generated_from_trainer
- dataset_size:10501
- loss:CosineSimilarityLoss
base_model: klue/roberta-base
widget:
- source_sentence: 조명등 낮에 키려고 하지마
sentences:
- 아침 샤워는 꼭 찬물 말고 더운물로 해줘
- 일단 숙소는 4인가족이 머무르기 충분한공간입니다
- 올드 시티의 그랜드 마스터 궁전, 고고학 박물관 등을 주로 구경한다면 최고의 위치입니다.
- source_sentence: 요즘 네가 즐겨 보는 뉴스 채널이 뭐야?
sentences:
- 농협이랑 신한 중 청구서를 달마다 메일로 보내게 해둔 곳이 어디지?
- 쓰레기,설거지,빨래를 처리하기에도 아주 좋았구요
- 예능말고 네가 좋아하는 뉴스 채널로 알려줘요
- source_sentence: 일인분 밥 짓는 방법 좀 알려줘
sentences:
- 올해 추석 연휴 날짜가 며칠부터 며칠까지에요?
- 음악 들을 거면 스피커말고 헤드폰으로 듣지 그래
- 더울 때 오래된 음식은 먹지 않도록 해.
- source_sentence: 60년 전, 이 땅에 위대한 민주주의의 역사를 심어주신 주역들께 깊은 존경과 감사 인사를 드립니다.
sentences:
- 60년 전, 저는 이 땅에 민주주의의 위대한 역사를 창조한 사람들에게 깊은 존경과 감사를 표하고 싶습니다.
- 호스트와 양호한 연결 지점입니다.
- 골프치러 내일 만나기로 한 데가 어디야?
- source_sentence: 삼월 메일은 삭제되어선 안돼
sentences:
- 중요한 메일이니 스팸으로 분류하지 말고 삭제금지 설정해줘
- 무드등말고 백열등 켜주세요!
- 나한테 침실에 무드등 밝기 적당한 정도 좀 알려줄래?
pipeline_tag: sentence-similarity
library_name: sentence-transformers
metrics:
- pearson_cosine
- spearman_cosine
model-index:
- name: SentenceTransformer based on klue/roberta-base
results:
- task:
type: semantic-similarity
name: Semantic Similarity
dataset:
name: Unknown
type: unknown
metrics:
- type: pearson_cosine
value: 0.9617068435868263
name: Pearson Cosine
- type: spearman_cosine
value: 0.9210402694151972
name: Spearman Cosine
---
# SentenceTransformer based on klue/roberta-base
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [klue/roberta-base](https://huggingface.co/klue/roberta-base). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
## Model Details
### Model Description
- **Model Type:** Sentence Transformer
- **Base model:** [klue/roberta-base](https://huggingface.co/klue/roberta-base)
- **Maximum Sequence Length:** 512 tokens
- **Output Dimensionality:** 768 dimensions
- **Similarity Function:** Cosine Similarity
### Model Sources
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
### Full Model Architecture
```
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: RobertaModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
```
## Usage
### Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
```bash
pip install -U sentence-transformers
```
Then you can load this model and run inference.
```python
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
'삼월 메일은 삭제되어선 안돼',
'중요한 메일이니 스팸으로 분류하지 말고 삭제금지 설정해줘',
'무드등말고 백열등 켜주세요!',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
```
## Evaluation
### Metrics
#### Semantic Similarity
* Evaluated with [EmbeddingSimilarityEvaluator](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.EmbeddingSimilarityEvaluator)
| Metric | Value |
|:--------------------|:----------|
| pearson_cosine | 0.9617 |
| **spearman_cosine** | **0.921** |
## Training Details
### Training Dataset
#### Unnamed Dataset
* Size: 10,501 training samples
* Columns: sentence_0, sentence_1, and label
* Approximate statistics based on the first 1000 samples:
| | sentence_0 | sentence_1 | label |
|:--------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:---------------------------------------------------------------|
| type | string | string | float |
| details |
아울러 가명처리 등 개인정보 보호 기술 개발과 RD를 위한 협력을 강화하고 지역정보보호센터 등을 활용한 개인정보 보호 전문 인력양성 및 중소기업 개인정보 보호 강화도 추진한다. | 이와 함께 가명처리, RD 등 개인정보보호 기술개발 협력을 강화하고, 지역정보보호센터를 활용한 개인정보보호 전문가와 중소기업을 육성할 계획입니다. | 0.6599999999999999 |
| 다음 메일은 사용자의 메일을 최대 몇 기가까지 저장하죠? | 다음 메일을 사용할 때 메일이 저장되는 최대 용량은 얼마죠? | 0.7 |
| 그들이 당신을 데리러 지하철역으로 올 것입니다. | 그들의 조언과 도움이 없었다면, 이렇게까지 좋은 여행을 할수없었을것입니다. | 0.02 |
* Loss: [CosineSimilarityLoss](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cosinesimilarityloss) with these parameters:
```json
{
"loss_fct": "torch.nn.modules.loss.MSELoss"
}
```
### Training Hyperparameters
#### Non-Default Hyperparameters
- `eval_strategy`: steps
- `per_device_train_batch_size`: 16
- `per_device_eval_batch_size`: 16
- `num_train_epochs`: 4
- `multi_dataset_batch_sampler`: round_robin
#### All Hyperparameters