---
tags:
- sentence-transformers
- sentence-similarity
- feature-extraction
- generated_from_trainer
- dataset_size:10501
- loss:CosineSimilarityLoss
base_model: BAAI/bge-m3
widget:
- source_sentence: 삼촌이 이 시간대에 보고싶은 티비 프로그램이 뭐여요?
sentences:
- 외출 시 방범 모드 변환하는 방법 좀 알려줘
- 제2차 전략회의에서 대전, 경기, 강원, 전남, 제주, 경남 등 6개 시·도지사가 지역에서 추진 중인 뉴딜 관련 사례를 소개했습니다.
- 학교가 보낸 메일은 차단하면 안돼
- source_sentence: 재산세율 인하 대상을 공시가격 6억원 이하 1주택자로 한정하고 세율 인하 폭을 0.05%p로 정한 이유는?
sentences:
- 무엇보다 호스트의 빠른 응답과 세심함, 친절함이 좋았어요
- 날짜 중 언제 아버지가 시간이 되시는지요?
- 재산세율 인하가 공시가격 6억원 이하 1주택자로 제한되고 세율 인하가 0.05%p로 정해진 이유는 무엇입니까?
- source_sentence: 집안 조명 개수 늘리는 건 삼가주시기 바랍니다.
sentences:
- 숙소의 위치는 버스와 지하철을 이용하기에 좋았습니다.
- 회원님의 한달 집 가스레인지 비용이 얼마인지 알 수 있을까요?
- 앞으로 서울 서계동 복합문화시설(현 국립극단) 부지와 부천영상지구 부지에 문화예술인 지원주택이 조성될 예정입니다.
- source_sentence: 또 겨울이 우기인 프랑스의 을씨년스런 분위기와 방 곳곳에 위치한 등 조명, 연식있는 건물이 잘 어울렸습니다
sentences:
- 저의 여행일정에 위치나 가격대 시설등이 만족스러웠습니다.
- 정부가 22일부터 내달 5일까지 종교시설, 실내 체육시설, 유흥시설 등에 대한 운영 중단을 권고했다.
- 학회 홍보메일이랑 저널 홍보메일을 비교했을 때 뭐가 더 자주 와?
- source_sentence: 호시우역과 가까워 신트라에 가기 편합니다.
sentences:
- 신트라는 호시우역에서 가까워서 가는 것이 편리합니다.
- 첫날에 지도와 함께 친절한 설명과 건물 옥상 야경팁도 좋았습니다.
- 제가 갔던 에어비엔비중에서 제일 좋았어요!
pipeline_tag: sentence-similarity
library_name: sentence-transformers
metrics:
- pearson_cosine
- spearman_cosine
model-index:
- name: SentenceTransformer based on BAAI/bge-m3
results:
- task:
type: semantic-similarity
name: Semantic Similarity
dataset:
name: Unknown
type: unknown
metrics:
- type: pearson_cosine
value: 0.8721708944763191
name: Pearson Cosine
- type: spearman_cosine
value: 0.8828376070833523
name: Spearman Cosine
- type: pearson_cosine
value: 0.9622964526170126
name: Pearson Cosine
- type: spearman_cosine
value: 0.9247125520705015
name: Spearman Cosine
---
# SentenceTransformer based on BAAI/bge-m3
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [BAAI/bge-m3](https://huggingface.co/BAAI/bge-m3). It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
## Model Details
### Model Description
- **Model Type:** Sentence Transformer
- **Base model:** [BAAI/bge-m3](https://huggingface.co/BAAI/bge-m3)
- **Maximum Sequence Length:** 8192 tokens
- **Output Dimensionality:** 1024 dimensions
- **Similarity Function:** Cosine Similarity
### Model Sources
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
### Full Model Architecture
```
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
(1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
```
## Usage
### Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
```bash
pip install -U sentence-transformers
```
Then you can load this model and run inference.
```python
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
'호시우역과 가까워 신트라에 가기 편합니다.',
'신트라는 호시우역에서 가까워서 가는 것이 편리합니다.',
'첫날에 지도와 함께 친절한 설명과 건물 옥상 야경팁도 좋았습니다.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
```
## Evaluation
### Metrics
#### Semantic Similarity
* Evaluated with [EmbeddingSimilarityEvaluator](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.EmbeddingSimilarityEvaluator)
| Metric | Value |
|:--------------------|:-----------|
| pearson_cosine | 0.8722 |
| **spearman_cosine** | **0.8828** |
#### Semantic Similarity
* Evaluated with [EmbeddingSimilarityEvaluator](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.EmbeddingSimilarityEvaluator)
| Metric | Value |
|:--------------------|:-----------|
| pearson_cosine | 0.9623 |
| **spearman_cosine** | **0.9247** |
## Training Details
### Training Dataset
#### Unnamed Dataset
* Size: 10,501 training samples
* Columns: sentence_0, sentence_1, and label
* Approximate statistics based on the first 1000 samples:
| | sentence_0 | sentence_1 | label |
|:--------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:---------------------------------------------------------------|
| type | string | string | float |
| details |
앞으로 다른 사람의 토지에 정당한 사유 없이 자동차를 두 달 넘게 무단 방치하는 경우 강제 견인한다. | 문체부는 범정부 협업으로 한류를 지속 확산하고 연관 산업의 성장을 견인한다. | 0.1 |
| 인공지능, 보안(시큐리티), 사물인터넷(IoT), 스마트 헬스케어 등의 제품·서비스가 중점적으로 선보일 예정이다. | 인공지능, 보안(Security), 사물 인터넷(IoT), 스마트 헬스케어 등의 제품과 서비스가 주로 도입될 예정입니다. | 0.86 |
| 오늘 중에 혹시 일정 아직 안 잡힌 시간 있음 궁금해. | 학교 다닐 때도 같이 오래 놀았던 대학 후배인데 결혼식에 늦는 몰염치한 짓은 하지 맙시다. | 0.0 |
* Loss: [CosineSimilarityLoss](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cosinesimilarityloss) with these parameters:
```json
{
"loss_fct": "torch.nn.modules.loss.MSELoss"
}
```
### Training Hyperparameters
#### Non-Default Hyperparameters
- `eval_strategy`: steps
- `per_device_train_batch_size`: 16
- `per_device_eval_batch_size`: 16
- `num_train_epochs`: 4
- `multi_dataset_batch_sampler`: round_robin
#### All Hyperparameters