---
language:
- vi
tags:
- vision-language
- qwen
- vlm
- gguf
- pytorch
license: apache-2.0
datasets:
- minhduc168/dataset-qwen-vlm-extract-bill
base_model:
- unsloth/Qwen3-VL-2B-Instruct-bnb-4bit
---

# Qwen3-VL-2B-Instruct Vietnamese (4-bit)

Mô hình **Qwen3-VL-2B-Instruct** được fine-tune cho tác vụ **trích xuất thông tin hóa đơn, phiếu thu, đơn thuốc và chuẩn đoán bệnh tiếng Việt**.  
Model hỗ trợ hiểu hình ảnh và văn bản, phù hợp cho các bài toán OCR nâng cao, document understanding và information extraction.

---

## 🔥 Điểm nổi bật
- ✅ Tối ưu cho **tiếng Việt**
- ✅ Fine-tune cho **bill / invoice / prescription / diagnosis extraction**
- ✅ Phiên bản **4-bit (bnb)** giúp giảm VRAM khi inference
- ✅ Có thể chuyển sang **GGUF** để chạy local CPU
- ✅ Tương thích với `transformers`

---

## 📂 Cấu trúc Repository

- **`/merged_16bit`**  
  Chứa trọng số **bnb 4-bit** để chạy với thư viện `transformers` + `bitsandbytes`.

- **`/gguf`**  
  Phiên bản GGUF dành cho `llama.cpp` hoặc các engine suy luận local.

  **Bao gồm:**
  - `Qwen3-VL-2B-Instruct-Vietnamese.Q4_K_M.gguf` — bản nén 4-bit chất lượng cao  
  - `Qwen3-VL-2B-Instruct-Vietnamese.mmproj.gguf` — file projector xử lý hình ảnh

---

## 🚀 Hướng dẫn sử dụng

### ✅ Với Transformers

```python
from transformers import Qwen2VLForConditionalGeneration, AutoProcessor

model = Qwen2VLForConditionalGeneration.from_pretrained(
    "minhduc168/Qwen3-VL-2B-Instruct-Vietnamese",
    device_map="auto"
)

processor = AutoProcessor.from_pretrained(
    "minhduc168/Qwen3-VL-2B-Instruct-Vietnamese"
)
```
## ⚠️ Lưu ý quan trọng khi dùng GGUF (Vision Model)

Đối với các model Vision-Language như **Qwen3-VL**, khi chuyển sang GGUF:

### Bắt buộc cần 2 file:
1️⃣ **Model chính** (`.gguf`)  
2️⃣ **Projector** (`mmproj.gguf`)  

👉 Thiếu file projector → model **không thể xử lý hình ảnh**.

---

## 📊 Dataset

**Bao gồm:**
- Hóa đơn bán lẻ  
- Phiếu thu  
- Đơn thuốc  
- Chứng từ tiếng Việt
- Chuẩn đoán bệnh 

Định dạng **instruction-following** giúp model trích xuất dữ liệu có cấu trúc chính xác hơn.

---

## 🎯 Use Cases

- Trích xuất thông tin hóa đơn tự động  
- Structured OCR  
- Document AI tiếng Việt  
- Medical / pharmacy bill parsing  
- Fintech document processing  

---

## 📌 Gợi ý phần cứng

| Quantization | VRAM đề xuất |
|------------|------------|
| 4-bit bnb  | ~6–8GB |
| GGUF Q4    | Chạy được trên CPU (khuyến nghị ≥16GB RAM) |

---

## License

Apache-2.0