Upload folder using huggingface_hub

Browse files

Files changed (13) hide show

.gitattributes +3 -0
1_Pooling/config.json +5 -0
README.md +182 -0
assets/leaderboard_gradient.png +3 -0
assets/mrl_degradation.png +3 -0
assets/ours_by_split.png +3 -0
config.json +116 -0
config_sentence_transformers.json +18 -0
model.safetensors +3 -0
modules.json +14 -0
sentence_bert_config.json +10 -0
tokenizer.json +0 -0
tokenizer_config.json +23 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,6 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+assets/leaderboard_gradient.png filter=lfs diff=lfs merge=lfs -text
+assets/mrl_degradation.png filter=lfs diff=lfs merge=lfs -text
+assets/ours_by_split.png filter=lfs diff=lfs merge=lfs -text

1_Pooling/config.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+    "embedding_dimension": 768,
+    "pooling_mode": "mean",
+    "include_prompt": true
+}

README.md ADDED Viewed

	@@ -0,0 +1,182 @@

+---
+license: apache-2.0
+language:
+- ru
+library_name: sentence-transformers
+pipeline_tag: sentence-similarity
+base_model: deepvk/USER2-base
+tags:
+- sentence-transformers
+- feature-extraction
+- sentence-similarity
+- code-retrieval
+- 1c
+- bsl
+- matryoshka
+- ru
+model-index:
+- name: USER2-1C-code
+  results:
+  - task:
+      type: retrieval
+      name: Code Retrieval
+    dataset:
+      type: PruhaNLP/1C-Ebench
+      name: 1C-Ebench (forum)
+      config: forum
+      split: test
+    metrics:
+    - type: ndcg_at_10
+      value: 0.4617
+    - type: recall_at_10
+      value: 0.6008
+    - type: mrr_at_10
+      value: 0.4178
+  - task:
+      type: retrieval
+      name: Code Retrieval
+    dataset:
+      type: PruhaNLP/1C-Ebench
+      name: 1C-Ebench (fastcode)
+      config: fastcode
+      split: test
+    metrics:
+    - type: ndcg_at_10
+      value: 0.7366
+    - type: recall_at_10
+      value: 0.9208
+    - type: mrr_at_10
+      value: 0.6774
+---
+# USER2-1C-code
+**Первая открытая эмбеддинг-модель, заточенная под код и язык 1С (1С:Предприятие / BSL).**
+`USER2-1C-code` — это би-энкодер для семантического поиска по коду 1С: на вход подаётся вопрос на естественном языке, на выходе — релевантные фрагменты кода/решений. Модель — fine-tune [`deepvk/USER2-base`](https://huggingface.co/deepvk/USER2-base) (ModernBERT, контекст до 8192 токенов) на парах «вопрос → код 1С».
+- **Тип:** bi-encoder (sentence-transformers), mean pooling, cosine similarity
+- **База:** `deepvk/USER2-base` (ModernBERT, 768d, до 8192 токенов)
+- **Языки:** русский + код 1С (BSL)
+- **Matryoshka (MRL):** полноценные эмбеддинги на `768 / 512 / 384 / 256 / 128 / 64 / 32`
+- **Префиксы:** `search_query` для запросов, `search_document` для кода
+## Результаты на 1C-Ebench
+Бенчмарк [`PruhaNLP/1C-Ebench`](https://huggingface.co/datasets/PruhaNLP/1C-Ebench): retrieval по двум источникам — `forum` (живые вопросы с тематических площадок) и `fastcode` (готовые сниппеты/шаблоны). Метрика — nDCG@10.
+![Leaderboard](assets/leaderboard_gradient.png)
+| Модель | avg nDCG@10 |
+|---|---|
+| **USER2-1C-code (наша)** | **0.599** |
+| google/embeddinggemma-300m | 0.540 |
+| deepvk/USER2-base | 0.493 |
+| deepvk/USER-bge-m3 | 0.491 |
+| ibm-granite/granite-embedding-311m-multilingual-r2 | 0.485 |
+| microsoft/harrier-oss-v1-270m | 0.480 |
+| intfloat/multilingual-e5-base | 0.429 |
+| ai-forever/sbert_large_nlu_ru | 0.086 |
+Прирост относительно базовой `deepvk/USER2-base` — **+0.106 avg nDCG@10** (0.493 → 0.599).
+### Детально по сплитам
+![Метрики по сплитам](assets/ours_by_split.png)
+| Сплит | nDCG@10 | Recall@10 | MRR@10 |
+|---|---|---|---|
+| forum | 0.4617 | 0.6008 | 0.4178 |
+| fastcode | 0.7366 | 0.9208 | 0.6774 |
+## Matryoshka (MRL): обрезаемые эмбеддинги
+Модель обучена с `MatryoshkaLoss`, поэтому эмбеддинг можно усекать до меньшей размерности (взять первые `d` компонент и перенормировать) почти без потери качества. Это позволяет экономить память индекса и ускорять поиск.
+![MRL degradation](assets/mrl_degradation.png)
+| dim | avg nDCG@10 | от полной 768d |
+|---|---|---|
+| 768 | 0.599 | 100.0% |
+| 512 | 0.600 | 100.1% |
+| 384 | 0.600 | 100.2% |
+| 256 | 0.598 | 99.9% |
+| 128 | 0.584 | 97.5% |
+| 64 | 0.560 | 93.5% |
+| 32 | 0.503 | 83.9% |
+До **256d качество практически не падает** — можно смело уменьшать индекс втрое.
+## Использование
+```python
+from sentence_transformers import SentenceTransformer
+model = SentenceTransformer("PruhaNLP/USER2-1C-code")
+query = "Как программно провести документ в 1С?"
+docs = [
+    "Документы.РеализацияТоваровУслуг.СоздатьДокумент();",
+    "Процедура ПровестиДокумент(Ссылка) Экспорт ... КонецПроцедуры",
+]
+q_emb = model.encode(query, prompt_name="search_query", normalize_embeddings=True)
+d_emb = model.encode(docs, prompt_name="search_document", normalize_embeddings=True)
+scores = model.similarity(q_emb, d_emb)
+print(scores)
+```
+Для MRL укажите целевую размерность:
+```python
+model = SentenceTransformer("PruhaNLP/USER2-1C-code", truncate_dim=256)
+```
+## Кастомный токенайзер для при��атности
+При подготовке данных персональные данные в коде/текстах не вырезаются грубо, а заменяются на отдельные **служебные токены**, которые модель видит как единый элемент (а не как ломаную последовательность сабтокенов):
+| Сущность | Токен | Токенов после кодирования |
+|---|---|---|
+| Пути | `[PATH]` | 1 |
+| Имена | `[PERSON]` | 1 |
+| E-mail | `\|\|\|EMAIL_ADDRESS\|\|\|` | 1 |
+| Телефон | `\|\|\|PHONE_NUMBER\|\|\|` | 1 |
+| IP | `\|\|\|IP_ADDRESS\|\|\|` | 1 |
+Свободные слоты словаря (`[unused0]`/`[unused1]`) переиспользованы под `[PATH]`/`[PERSON]`, а их эмбеддинги инициализированы средним по сабтокенам исходных строк. В результате анонимизация не ломает токенизацию и не плодит шум в последовательности — это аккуратно закрывает персональные данные и держит распределение входа стабильным.
+## Детали обучения
+- **База:** `deepvk/USER2-base` (ModernBERT)
+- **Лосс:** `CachedMultipleNegativesRankingLoss` (scale 20, hard-negatives) внутри `MatryoshkaLoss` по размерностям `[768, 512, 384, 256, 128, 64, 32]`
+- **Хард-негативы:** майнинг по FAISS
+- **LR-расписание:** трапеция (warmup → stable → cosine decay), peak LR 2e-5
+- **Контекст:** до 8192 токенов, fp16
+- **Префиксы:** `search_query` / `search_document`
+## Код валидации
+Eval-харнесс и протокол воспроизведения метрик опубликованы отдельно:
+[`github.com/PruhaNLP/1C-Ebench`](https://github.com/PruhaNLP/1C-Ebench).
+## Правовая информация
+«1С», «1С:Предприятие» и связанные обозначения — товарные знаки ООО «1С». Проект является независимым, **не аффилирован с фирмой «1С»** и не одобрен ею. Названия используются исключительно для указания предметной области (номинативное использование). Модель и датасеты предоставляются «как есть», без гарантий. Если вы правообладатель и считаете, что какой-либо материал нарушает ваши права — напишите на контакт ниже, и он будет удалён.
+## Контакт для связи
+`konstphx@gmail.com`
+## Цитирование
+```bibtex
+@misc{user2_1c_code,
+  title  = {USER2-1C-code: эмбеддинг-модель для поиска по коду 1С},
+  author = {PruhaNLP},
+  year   = {2026},
+  url    = {https://huggingface.co/PruhaNLP/USER2-1C-code}
+}
+```

assets/leaderboard_gradient.png ADDED Viewed

Git LFS Details

SHA256: 390cc454b08f74eb36dc67746f8037426a2b211d908d3c575e8fac602314c64f
Pointer size: 131 Bytes
Size of remote file: 105 kB

assets/mrl_degradation.png ADDED Viewed

Git LFS Details

SHA256: fa6fe1d7c77f86825a8f3367eb176d439ff6cd74a928d6802961450edb58047f
Pointer size: 131 Bytes
Size of remote file: 139 kB

assets/ours_by_split.png ADDED Viewed

Git LFS Details

SHA256: 9150fcb4349ad476493407949cbc110ae19491fcdc75a46fc2a1cde409f11280
Pointer size: 131 Bytes
Size of remote file: 134 kB

config.json ADDED Viewed

	@@ -0,0 +1,116 @@

+{
+  "activation_function": "gelu",
+  "allow_embedding_resizing": true,
+  "architectures": [
+    "ModernBertModel"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "attention_layer": "rope",
+  "attention_probs_dropout_prob": 0.0,
+  "attn_out_bias": false,
+  "attn_out_dropout_prob": 0.1,
+  "attn_qkv_bias": false,
+  "bert_layer": "prenorm",
+  "bos_token_id": null,
+  "classifier_activation": "gelu",
+  "classifier_bias": false,
+  "classifier_dropout": 0.0,
+  "classifier_pooling": "cls",
+  "cls_token_id": 50281,
+  "compile_model": true,
+  "decoder_bias": true,
+  "deterministic_flash_attn": false,
+  "dtype": "float32",
+  "embed_dropout_prob": 0.0,
+  "embed_norm": true,
+  "embedding_dropout": 0.0,
+  "embedding_layer": "sans_pos",
+  "eos_token_id": null,
+  "final_norm": true,
+  "global_attn_every_n_layers": 3,
+  "head_pred_act": "gelu",
+  "hidden_act": "gelu",
+  "hidden_activation": "gelu",
+  "hidden_dropout_prob": 0.0,
+  "hidden_size": 768,
+  "init_method": "full_megatron",
+  "initializer_cutoff_factor": 2.0,
+  "initializer_range": 0.02,
+  "intermediate_size": 1152,
+  "layer_norm_eps": 1e-05,
+  "layer_types": [
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention"
+  ],
+  "local_attention": 256,
+  "local_attn_rotary_emb_base": 10000.0,
+  "loss_function": "fa_cross_entropy",
+  "loss_kwargs": {
+    "reduction": "mean"
+  },
+  "masked_prediction": true,
+  "max_position_embeddings": 8192,
+  "mlp_bias": false,
+  "mlp_dropout": 0.0,
+  "mlp_dropout_prob": 0.0,
+  "mlp_in_bias": false,
+  "mlp_layer": "glu",
+  "mlp_out_bias": false,
+  "model_type": "modernbert",
+  "norm_bias": false,
+  "norm_eps": 1e-05,
+  "norm_kwargs": {
+    "bias": false,
+    "eps": 1e-05
+  },
+  "normalization": "layernorm",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 22,
+  "pad_token_id": 50283,
+  "padding": "unpadded",
+  "repad_logits_with_grad": false,
+  "rope_parameters": {
+    "full_attention": {
+      "rope_theta": 160000.0,
+      "rope_type": "default"
+    },
+    "sliding_attention": {
+      "rope_theta": 10000.0,
+      "rope_type": "default"
+    }
+  },
+  "rotary_emb_base": 160000.0,
+  "rotary_emb_dim": null,
+  "rotary_emb_interleaved": false,
+  "rotary_emb_scale_base": null,
+  "sep_token_id": 50282,
+  "skip_first_prenorm": true,
+  "sparse_pred_ignore_index": -100,
+  "sparse_prediction": false,
+  "tie_word_embeddings": true,
+  "transformers_version": "5.1.0",
+  "unpad_embeddings": true,
+  "use_cache": false,
+  "vocab_size": 50368
+}

config_sentence_transformers.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "__version__": {
+    "pytorch": "2.8.0+cu128",
+    "sentence_transformers": "5.5.1",
+    "transformers": "5.1.0"
+  },
+  "default_prompt_name": null,
+  "model_type": "SentenceTransformer",
+  "prompts": {
+    "classification": "classification: ",
+    "clustering": "clustering: ",
+    "document": "",
+    "query": "",
+    "search_document": "search_document: ",
+    "search_query": "search_query: "
+  },
+  "similarity_fn_name": "cosine"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bd09b757bf568b446b88789b4fa57e4487a8d119d9f755691affaa01d34bf13b
+size 596070136

modules.json ADDED Viewed

	@@ -0,0 +1,14 @@

+[
+  {
+    "idx": 0,
+    "name": "0",
+    "path": "",
+    "type": "sentence_transformers.base.modules.transformer.Transformer"
+  },
+  {
+    "idx": 1,
+    "name": "1",
+    "path": "1_Pooling",
+    "type": "sentence_transformers.sentence_transformer.modules.pooling.Pooling"
+  }
+]

sentence_bert_config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+    "transformer_task": "feature-extraction",
+    "modality_config": {
+        "text": {
+            "method": "forward",
+            "method_output_name": "last_hidden_state"
+        }
+    },
+    "module_output_name": "token_embeddings"
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "backend": "tokenizers",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "is_local": true,
+  "mask_token": "[MASK]",
+  "max_length": 2048,
+  "model_input_names": [
+    "input_ids",
+    "attention_mask"
+  ],
+  "model_max_length": 8192,
+  "pad_to_multiple_of": null,
+  "pad_token": "[PAD]",
+  "pad_token_type_id": 0,
+  "padding_side": "right",
+  "sep_token": "[SEP]",
+  "stride": 0,
+  "tokenizer_class": "TokenizersBackend",
+  "truncation_side": "right",
+  "truncation_strategy": "longest_first",
+  "unk_token": "[UNK]"
+}