lockR commited on
Commit
5944fce
·
verified ·
1 Parent(s): d0ee55b

Update model card with full multimodal GQA-ru benchmark

Browse files
Files changed (1) hide show
  1. README.md +39 -33
README.md CHANGED
@@ -1,7 +1,7 @@
1
  ---
2
  base_model: Qwen/Qwen3.5-0.8B
3
  library_name: peft
4
- pipeline_tag: text-generation
5
  tags:
6
  - lora
7
  - peft
@@ -9,32 +9,48 @@ tags:
9
  - deepvk
10
  - gqa-ru
11
  - visual-question-answering
 
12
  datasets:
13
  - deepvk/GQA-ru
14
  ---
15
 
16
  # vk-vlm-gqa-ru-qwen35-08b-lora
17
 
18
- LoRA-адаптер, обученный для проекта VK Education Vision-Language Modeling на открытых данных
19
- VK/DeepVK GQA-ru.
20
 
21
  Автор: Ибрагимов Далгат Магомедалиевич, МАИ институт 8, группа М8О-308Б-32.
22
 
23
- ## Данные
 
 
 
 
 
 
 
 
 
 
 
24
 
25
- Использован открытый датасет `deepvk/GQA-ru` из коллекции DeepVK VLM на Hugging Face. Данные были
26
- приведены к JSONL-формату image/question/answer и использованы для обучения VQA-style модели.
27
 
28
- Локальные размеры split в запуске:
 
29
 
30
  | Split | Samples |
31
  |---|---:|
32
  | train | 38 019 |
33
  | validation | 1 981 |
34
- | test | 12 216 |
35
 
36
  ## Обучение
37
 
 
 
 
 
38
  | Параметр | Значение |
39
  |---|---|
40
  | Base model | `Qwen/Qwen3.5-0.8B` |
@@ -46,44 +62,34 @@ VK/DeepVK GQA-ru.
46
  | Learning rate | `2e-4` |
47
  | Precision | `bf16` |
48
  | Seed | `42` |
 
49
 
50
- Лучший checkpoint: `checkpoint-4560`, выбран по `eval_loss`.
51
-
52
- ## Метрики
53
-
54
- Training metrics:
55
-
56
- | Metric | Value |
57
  |---|---:|
58
  | train_loss | 0.04432422036801592 |
59
  | eval_loss | 0.4337001144886017 |
60
  | train_runtime_sec | 6219.1947 |
61
- | train_samples_per_second | 6.113 |
62
- | eval_samples_per_second | 17.075 |
63
-
64
- Base-vs-adapter text QA proxy evaluation on GQA-ru validation:
65
-
66
- | Metric | Base `Qwen/Qwen3.5-0.8B` | LoRA adapter |
67
- |---|---:|---:|
68
- | Answer loss, 200 val samples | 5.169734188625889 | 2.53404495023912 |
69
- | Answer perplexity, 200 val samples | 175.8680835335284 | 12.604387280790764 |
70
- | Exact match, 50 val samples | 0.18 | 0.36 |
71
- | Token F1, 50 val samples | 0.20 | 0.36 |
72
-
73
- Ограничение: это текстовая QA-оценка по вопросам GQA-ru без image input. Она показывает реальное
74
- улучшение адаптера относительно исходной модели, но не является полным VLM leaderboard score.
75
 
76
  ## Использование
77
 
78
  ```python
79
  from peft import PeftModel
80
- from transformers import AutoModelForCausalLM, AutoTokenizer
81
 
82
- base_model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen3.5-0.8B", trust_remote_code=True)
83
- tokenizer = AutoTokenizer.from_pretrained("lockR/vk-vlm-gqa-ru-qwen35-08b-lora", trust_remote_code=True)
84
- model = PeftModel.from_pretrained(base_model, "lockR/vk-vlm-gqa-ru-qwen35-08b-lora")
 
 
 
85
  ```
86
 
 
 
 
 
 
 
87
  ## Репозиторий проекта
88
 
89
  https://github.com/L0ckR/VK_education_vllm
 
1
  ---
2
  base_model: Qwen/Qwen3.5-0.8B
3
  library_name: peft
4
+ pipeline_tag: image-text-to-text
5
  tags:
6
  - lora
7
  - peft
 
9
  - deepvk
10
  - gqa-ru
11
  - visual-question-answering
12
+ - lmms-eval
13
  datasets:
14
  - deepvk/GQA-ru
15
  ---
16
 
17
  # vk-vlm-gqa-ru-qwen35-08b-lora
18
 
19
+ Мультимодальный LoRA-адаптер для `Qwen/Qwen3.5-0.8B`, обученный на открытом датасете
20
+ VK/DeepVK `GQA-ru` для русскоязычного visual question answering.
21
 
22
  Автор: Ибрагимов Далгат Магомедалиевич, МАИ институт 8, группа М8О-308Б-32.
23
 
24
+ ## Результат
25
+
26
+ Официальная оценка выполнена через `lmms-eval` на полном `gqa-ru` testdev split без `--limit`.
27
+ Модель получала изображения и вопросы. Для воспроизводимого короткого ответа использовался
28
+ `enable_thinking=False`.
29
+
30
+ | Модель | Samples | ExactMatch | Correct |
31
+ |---|---:|---:|---:|
32
+ | `Qwen/Qwen3.5-0.8B` | 12 216 | 0.2862 | 3 496 |
33
+ | LoRA adapter | 12 216 | 0.4832 | 5 903 |
34
+
35
+ Улучшение: **+0.1970 ExactMatch absolute**, **+68.85% relative**, **+2 407** правильных ответов.
36
 
37
+ ## Данные
 
38
 
39
+ Использован открытый датасет `deepvk/GQA-ru`. Локальные JSONL-манифесты содержали путь к
40
+ изображению, русский вопрос и эталонный ответ.
41
 
42
  | Split | Samples |
43
  |---|---:|
44
  | train | 38 019 |
45
  | validation | 1 981 |
46
+ | testdev | 12 216 |
47
 
48
  ## Обучение
49
 
50
+ Обучение было мультимодальным: processor получал изображения, вопросы и ответы. Vision encoder
51
+ оставался замороженным, а LoRA обучалась в language model attention слоях, адаптируя обработку
52
+ visual tokens для русскоязычного VQA.
53
+
54
  | Параметр | Значение |
55
  |---|---|
56
  | Base model | `Qwen/Qwen3.5-0.8B` |
 
62
  | Learning rate | `2e-4` |
63
  | Precision | `bf16` |
64
  | Seed | `42` |
65
+ | Best checkpoint | `checkpoint-4560` |
66
 
67
+ | Training metric | Value |
 
 
 
 
 
 
68
  |---|---:|
69
  | train_loss | 0.04432422036801592 |
70
  | eval_loss | 0.4337001144886017 |
71
  | train_runtime_sec | 6219.1947 |
 
 
 
 
 
 
 
 
 
 
 
 
 
 
72
 
73
  ## Использование
74
 
75
  ```python
76
  from peft import PeftModel
77
+ from transformers import AutoProcessor, Qwen3_5ForConditionalGeneration
78
 
79
+ base = "Qwen/Qwen3.5-0.8B"
80
+ adapter = "lockR/vk-vlm-gqa-ru-qwen35-08b-lora"
81
+
82
+ processor = AutoProcessor.from_pretrained(base, trust_remote_code=True)
83
+ model = Qwen3_5ForConditionalGeneration.from_pretrained(base, trust_remote_code=True)
84
+ model = PeftModel.from_pretrained(model, adapter)
85
  ```
86
 
87
+ ## Ограничения
88
+
89
+ - Vision encoder не дообучался: LoRA применяется только к language model слоям.
90
+ - Результат измерен на GQA-ru; качество на других доменах и MMBench-ru не подтверждено.
91
+ - Модель может наследовать ограничения и смещения базовой ��одели и датасета.
92
+
93
  ## Репозиторий проекта
94
 
95
  https://github.com/L0ckR/VK_education_vllm