---
tags:
- sentence-transformers
- sentence-similarity
- feature-extraction
- dense
- generated_from_trainer
- dataset_size:9334
- loss:CosineSimilarityLoss
base_model: klue/roberta-base
widget:
- source_sentence: 니 생각엔 어떤 방법이 거실 청소를 할 때에 가장 효과적일 것 같아?
sentences:
- 한메일 서비스를 이용할 수 있는 기간은 언제까지 일까요?
- 다음에 엘에이에 오면 또 머무를 계획입니다.
- 너가 생각하기에 거실 청소하는데 가장 효과적인 방법은 뭐야?
- source_sentence: 얘야, 인덕션이랑 가스렌지 중에 요리할 때 뭐쓰고 싶니?
sentences:
- 너는 로봇 청소기를 안방하고 거실 중 어디에서 작동시키고 싶어?
- 열대야에 커피 마시지 마라.
- 네가 요리할때 인덕션이랑 가스렌지 중에서 뭘 쓰고 싶은지 말해봐
- source_sentence: 야 지금 거실 난방 이십오도로 설정되어있는데, 그대로 둘까 아니면 삼십도로 올려줄까?
sentences:
- 특히, 삼성전자의 상생동은 또 다른 윈-윈 상황을 낳았습니다.
- 나는 호스트에게 영어를 잘하기 때문에 대화하고 싶습니다.
- 야 거실 온도 이십오도랑 삼십도 중에 몇으로 설정할까?
- source_sentence: 다만 겨울에추위 많이 타시는 분은 추울수 있어요!
sentences:
- 이 근처는 지하철과 시장을 이용하는 것이 편리합니다.
- 추위 많이 타시는 분은 창가 쪽 침대가 좀 추우실 수 있어요.
- 공기청정기하고 환풍기 중 너가 작동시키려고 하는 게 뭐야?
- source_sentence: 곳곳에 비치된 물품에서 호스트 분의 배려가 돋보였어요.
sentences:
- 여기 저기 놓여진 항목에서 숙주의 배려가 두드러졌습니다.
- 확인도 안하고 야구장에 가지 말고 개장시간에 맞춰서 가자.
- 아직 백신이나 완치 치료제는 없습니다.
pipeline_tag: sentence-similarity
library_name: sentence-transformers
metrics:
- pearson_cosine
- spearman_cosine
model-index:
- name: SentenceTransformer based on klue/roberta-base
results:
- task:
type: semantic-similarity
name: Semantic Similarity
dataset:
name: Unknown
type: unknown
metrics:
- type: pearson_cosine
value: 0.34770709824935425
name: Pearson Cosine
- type: spearman_cosine
value: 0.35560473197486514
name: Spearman Cosine
- type: pearson_cosine
value: 0.9620239588924832
name: Pearson Cosine
- type: spearman_cosine
value: 0.9204920722269796
name: Spearman Cosine
---
# SentenceTransformer based on klue/roberta-base
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [klue/roberta-base](https://huggingface.co/klue/roberta-base). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
## Model Details
### Model Description
- **Model Type:** Sentence Transformer
- **Base model:** [klue/roberta-base](https://huggingface.co/klue/roberta-base)
- **Maximum Sequence Length:** 512 tokens
- **Output Dimensionality:** 768 dimensions
- **Similarity Function:** Cosine Similarity
### Model Sources
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
### Full Model Architecture
```
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False, 'architecture': 'RobertaModel'})
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
```
## Usage
### Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
```bash
pip install -U sentence-transformers
```
Then you can load this model and run inference.
```python
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
'곳곳에 비치된 물품에서 호스트 분의 배려가 돋보였어요.',
'여기 저기 놓여진 항목에서 숙주의 배려가 두드러졌습니다.',
'확인도 안하고 야구장에 가지 말고 개장시간에 맞춰서 가자.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[ 1.0000, 0.7915, 0.0100],
# [ 0.7915, 1.0000, -0.0261],
# [ 0.0100, -0.0261, 1.0000]])
```
## Evaluation
### Metrics
#### Semantic Similarity
* Evaluated with [EmbeddingSimilarityEvaluator](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.EmbeddingSimilarityEvaluator)
| Metric | Value |
|:--------------------|:-----------|
| pearson_cosine | 0.3477 |
| **spearman_cosine** | **0.3556** |
#### Semantic Similarity
* Evaluated with [EmbeddingSimilarityEvaluator](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.EmbeddingSimilarityEvaluator)
| Metric | Value |
|:--------------------|:-----------|
| pearson_cosine | 0.962 |
| **spearman_cosine** | **0.9205** |
## Training Details
### Training Dataset
#### Unnamed Dataset
* Size: 9,334 training samples
* Columns: sentence_0, sentence_1, and label
* Approximate statistics based on the first 1000 samples:
| | sentence_0 | sentence_1 | label |
|:--------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:---------------------------------------------------------------|
| type | string | string | float |
| details |
독서할때 조명을 어느정도 밝기로 켜둘까? | 독서할때 조명 밝기를 어느정도로 해놓는게 적당해? | 0.8 |
| 친구들과의 여행에서 뭐하나 빠질것없이 완벽한 집이에요. | 친구들과 함께 여행하기에 완벽한 집입니다. | 0.8 |
| 이들 사이트들은 한시적으로 5월 말까지 일반 학생들도 스마트폰으로 데이터 사용량에 대한 부담 없이 이용이 가능하도록 ‘제로레이팅(특정사이트 데이터 무과금)’으로 지원한다. | 이들 사이트는 일시적으로 "제로 레이트"(특정 사이트 데이터의 경우 무료)를 지원하여 5월 말까지 일반 학생들이 데이터 사용에 대한 부담 없이 스마트폰을 사용할 수 있도록 합니다. | 0.86 |
* Loss: [CosineSimilarityLoss](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cosinesimilarityloss) with these parameters:
```json
{
"loss_fct": "torch.nn.modules.loss.MSELoss"
}
```
### Training Hyperparameters
#### Non-Default Hyperparameters
- `eval_strategy`: steps
- `per_device_train_batch_size`: 16
- `per_device_eval_batch_size`: 16
- `num_train_epochs`: 4
- `multi_dataset_batch_sampler`: round_robin
#### All Hyperparameters