Image-Text-to-Text
PEFT
Safetensors
lora
vk-education
deepvk
gqa-ru
visual-question-answering
lmms-eval
conversational
Instructions to use lockR/vk-vlm-gqa-ru-qwen35-08b-lora with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- PEFT
How to use lockR/vk-vlm-gqa-ru-qwen35-08b-lora with PEFT:
from peft import PeftModel from transformers import AutoModelForCausalLM base_model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen3.5-0.8B") model = PeftModel.from_pretrained(base_model, "lockR/vk-vlm-gqa-ru-qwen35-08b-lora") - Notebooks
- Google Colab
- Kaggle
Update model card with full multimodal GQA-ru benchmark
Browse files
README.md
CHANGED
|
@@ -1,7 +1,7 @@
|
|
| 1 |
---
|
| 2 |
base_model: Qwen/Qwen3.5-0.8B
|
| 3 |
library_name: peft
|
| 4 |
-
pipeline_tag: text-
|
| 5 |
tags:
|
| 6 |
- lora
|
| 7 |
- peft
|
|
@@ -9,32 +9,48 @@ tags:
|
|
| 9 |
- deepvk
|
| 10 |
- gqa-ru
|
| 11 |
- visual-question-answering
|
|
|
|
| 12 |
datasets:
|
| 13 |
- deepvk/GQA-ru
|
| 14 |
---
|
| 15 |
|
| 16 |
# vk-vlm-gqa-ru-qwen35-08b-lora
|
| 17 |
|
| 18 |
-
LoRA-адаптер, обученный
|
| 19 |
-
VK/DeepVK GQA-ru.
|
| 20 |
|
| 21 |
Автор: Ибрагимов Далгат Магомедалиевич, МАИ институт 8, группа М8О-308Б-32.
|
| 22 |
|
| 23 |
-
##
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 24 |
|
| 25 |
-
|
| 26 |
-
приведены к JSONL-формату image/question/answer и использованы для обучения VQA-style модели.
|
| 27 |
|
| 28 |
-
Локальные
|
|
|
|
| 29 |
|
| 30 |
| Split | Samples |
|
| 31 |
|---|---:|
|
| 32 |
| train | 38 019 |
|
| 33 |
| validation | 1 981 |
|
| 34 |
-
|
|
| 35 |
|
| 36 |
## Обучение
|
| 37 |
|
|
|
|
|
|
|
|
|
|
|
|
|
| 38 |
| Параметр | Значение |
|
| 39 |
|---|---|
|
| 40 |
| Base model | `Qwen/Qwen3.5-0.8B` |
|
|
@@ -46,44 +62,34 @@ VK/DeepVK GQA-ru.
|
|
| 46 |
| Learning rate | `2e-4` |
|
| 47 |
| Precision | `bf16` |
|
| 48 |
| Seed | `42` |
|
|
|
|
| 49 |
|
| 50 |
-
|
| 51 |
-
|
| 52 |
-
## Метрики
|
| 53 |
-
|
| 54 |
-
Training metrics:
|
| 55 |
-
|
| 56 |
-
| Metric | Value |
|
| 57 |
|---|---:|
|
| 58 |
| train_loss | 0.04432422036801592 |
|
| 59 |
| eval_loss | 0.4337001144886017 |
|
| 60 |
| train_runtime_sec | 6219.1947 |
|
| 61 |
-
| train_samples_per_second | 6.113 |
|
| 62 |
-
| eval_samples_per_second | 17.075 |
|
| 63 |
-
|
| 64 |
-
Base-vs-adapter text QA proxy evaluation on GQA-ru validation:
|
| 65 |
-
|
| 66 |
-
| Metric | Base `Qwen/Qwen3.5-0.8B` | LoRA adapter |
|
| 67 |
-
|---|---:|---:|
|
| 68 |
-
| Answer loss, 200 val samples | 5.169734188625889 | 2.53404495023912 |
|
| 69 |
-
| Answer perplexity, 200 val samples | 175.8680835335284 | 12.604387280790764 |
|
| 70 |
-
| Exact match, 50 val samples | 0.18 | 0.36 |
|
| 71 |
-
| Token F1, 50 val samples | 0.20 | 0.36 |
|
| 72 |
-
|
| 73 |
-
Ограничение: это текстовая QA-оценка по вопросам GQA-ru без image input. Она показывает реальное
|
| 74 |
-
улучшение адаптера относительно исходной модели, но не является полным VLM leaderboard score.
|
| 75 |
|
| 76 |
## Использование
|
| 77 |
|
| 78 |
```python
|
| 79 |
from peft import PeftModel
|
| 80 |
-
from transformers import
|
| 81 |
|
| 82 |
-
|
| 83 |
-
|
| 84 |
-
|
|
|
|
|
|
|
|
|
|
| 85 |
```
|
| 86 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 87 |
## Репозиторий проекта
|
| 88 |
|
| 89 |
https://github.com/L0ckR/VK_education_vllm
|
|
|
|
| 1 |
---
|
| 2 |
base_model: Qwen/Qwen3.5-0.8B
|
| 3 |
library_name: peft
|
| 4 |
+
pipeline_tag: image-text-to-text
|
| 5 |
tags:
|
| 6 |
- lora
|
| 7 |
- peft
|
|
|
|
| 9 |
- deepvk
|
| 10 |
- gqa-ru
|
| 11 |
- visual-question-answering
|
| 12 |
+
- lmms-eval
|
| 13 |
datasets:
|
| 14 |
- deepvk/GQA-ru
|
| 15 |
---
|
| 16 |
|
| 17 |
# vk-vlm-gqa-ru-qwen35-08b-lora
|
| 18 |
|
| 19 |
+
Мультимодальный LoRA-адаптер для `Qwen/Qwen3.5-0.8B`, обученный на открытом датасете
|
| 20 |
+
VK/DeepVK `GQA-ru` для русскоязычного visual question answering.
|
| 21 |
|
| 22 |
Автор: Ибрагимов Далгат Магомедалиевич, МАИ институт 8, группа М8О-308Б-32.
|
| 23 |
|
| 24 |
+
## Результат
|
| 25 |
+
|
| 26 |
+
Официальная оценка выполнена через `lmms-eval` на полном `gqa-ru` testdev split без `--limit`.
|
| 27 |
+
Модель получала изображения и вопросы. Для воспроизводимого короткого ответа использовался
|
| 28 |
+
`enable_thinking=False`.
|
| 29 |
+
|
| 30 |
+
| Модель | Samples | ExactMatch | Correct |
|
| 31 |
+
|---|---:|---:|---:|
|
| 32 |
+
| `Qwen/Qwen3.5-0.8B` | 12 216 | 0.2862 | 3 496 |
|
| 33 |
+
| LoRA adapter | 12 216 | 0.4832 | 5 903 |
|
| 34 |
+
|
| 35 |
+
Улучшение: **+0.1970 ExactMatch absolute**, **+68.85% relative**, **+2 407** правильных ответов.
|
| 36 |
|
| 37 |
+
## Данные
|
|
|
|
| 38 |
|
| 39 |
+
Использован открытый датасет `deepvk/GQA-ru`. Локальные JSONL-манифесты содержали путь к
|
| 40 |
+
изображению, русский вопрос и эталонный ответ.
|
| 41 |
|
| 42 |
| Split | Samples |
|
| 43 |
|---|---:|
|
| 44 |
| train | 38 019 |
|
| 45 |
| validation | 1 981 |
|
| 46 |
+
| testdev | 12 216 |
|
| 47 |
|
| 48 |
## Обучение
|
| 49 |
|
| 50 |
+
Обучение было мультимодальным: processor получал изображения, вопросы и ответы. Vision encoder
|
| 51 |
+
оставался замороженным, а LoRA обучалась в language model attention слоях, адаптируя обработку
|
| 52 |
+
visual tokens для русскоязычного VQA.
|
| 53 |
+
|
| 54 |
| Параметр | Значение |
|
| 55 |
|---|---|
|
| 56 |
| Base model | `Qwen/Qwen3.5-0.8B` |
|
|
|
|
| 62 |
| Learning rate | `2e-4` |
|
| 63 |
| Precision | `bf16` |
|
| 64 |
| Seed | `42` |
|
| 65 |
+
| Best checkpoint | `checkpoint-4560` |
|
| 66 |
|
| 67 |
+
| Training metric | Value |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 68 |
|---|---:|
|
| 69 |
| train_loss | 0.04432422036801592 |
|
| 70 |
| eval_loss | 0.4337001144886017 |
|
| 71 |
| train_runtime_sec | 6219.1947 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 72 |
|
| 73 |
## Использование
|
| 74 |
|
| 75 |
```python
|
| 76 |
from peft import PeftModel
|
| 77 |
+
from transformers import AutoProcessor, Qwen3_5ForConditionalGeneration
|
| 78 |
|
| 79 |
+
base = "Qwen/Qwen3.5-0.8B"
|
| 80 |
+
adapter = "lockR/vk-vlm-gqa-ru-qwen35-08b-lora"
|
| 81 |
+
|
| 82 |
+
processor = AutoProcessor.from_pretrained(base, trust_remote_code=True)
|
| 83 |
+
model = Qwen3_5ForConditionalGeneration.from_pretrained(base, trust_remote_code=True)
|
| 84 |
+
model = PeftModel.from_pretrained(model, adapter)
|
| 85 |
```
|
| 86 |
|
| 87 |
+
## Ограничения
|
| 88 |
+
|
| 89 |
+
- Vision encoder не дообучался: LoRA применяется только к language model слоям.
|
| 90 |
+
- Результат измерен на GQA-ru; качество на других доменах и MMBench-ru не подтверждено.
|
| 91 |
+
- Модель может наследовать ограничения и смещения базовой ��одели и датасета.
|
| 92 |
+
|
| 93 |
## Репозиторий проекта
|
| 94 |
|
| 95 |
https://github.com/L0ckR/VK_education_vllm
|