Safetensors
GGUF
PyTorch
Vietnamese
vision-language
qwen
vlm
conversational
minhduc168's picture
Update README.md
02dadc4 verified
|
Raw
History Blame
2.76 kB
metadata
language:
  - vi
tags:
  - vision-language
  - qwen
  - vlm
  - gguf
  - pytorch
license: apache-2.0
datasets:
  - minhduc168/dataset-qwen-vlm-extract-bill
base_model:
  - unsloth/Qwen3-VL-2B-Instruct-bnb-4bit

Qwen3-VL-2B-Instruct Vietnamese (4-bit)

Mô hình Qwen3-VL-2B-Instruct được fine-tune cho tác vụ trích xuất thông tin hóa đơn, phiếu thu, đơn thuốc và chuẩn đoán bệnh tiếng Việt.
Model hỗ trợ hiểu hình ảnh và văn bản, phù hợp cho các bài toán OCR nâng cao, document understanding và information extraction.


🔥 Điểm nổi bật

  • ✅ Tối ưu cho tiếng Việt
  • ✅ Fine-tune cho bill / invoice / prescription / diagnosis extraction
  • ✅ Phiên bản 4-bit (bnb) giúp giảm VRAM khi inference
  • ✅ Có thể chuyển sang GGUF để chạy local CPU
  • ✅ Tương thích với transformers

📂 Cấu trúc Repository

  • /merged_16bit
    Chứa trọng số bnb 4-bit để chạy với thư viện transformers + bitsandbytes.

  • /gguf
    Phiên bản GGUF dành cho llama.cpp hoặc các engine suy luận local.

    Bao gồm:

    • Qwen3-VL-2B-Instruct-Vietnamese.Q4_K_M.gguf — bản nén 4-bit chất lượng cao
    • Qwen3-VL-2B-Instruct-Vietnamese.mmproj.gguf — file projector xử lý hình ảnh

🚀 Hướng dẫn sử dụng

✅ Với Transformers

from transformers import Qwen2VLForConditionalGeneration, AutoProcessor

model = Qwen2VLForConditionalGeneration.from_pretrained(
    "minhduc168/Qwen3-VL-2B-Instruct-Vietnamese",
    device_map="auto"
)

processor = AutoProcessor.from_pretrained(
    "minhduc168/Qwen3-VL-2B-Instruct-Vietnamese"
)

⚠️ Lưu ý quan trọng khi dùng GGUF (Vision Model)

Đối với các model Vision-Language như Qwen3-VL, khi chuyển sang GGUF:

Bắt buộc cần 2 file:

1️⃣ Model chính (.gguf)
2️⃣ Projector (mmproj.gguf)

👉 Thiếu file projector → model không thể xử lý hình ảnh.


📊 Dataset

Bao gồm:

  • Hóa đơn bán lẻ
  • Phiếu thu
  • Đơn thuốc
  • Chứng từ tiếng Việt
  • Chuẩn đoán bệnh

Định dạng instruction-following giúp model trích xuất dữ liệu có cấu trúc chính xác hơn.


🎯 Use Cases

  • Trích xuất thông tin hóa đơn tự động
  • Structured OCR
  • Document AI tiếng Việt
  • Medical / pharmacy bill parsing
  • Fintech document processing

📌 Gợi ý phần cứng

Quantization VRAM đề xuất
4-bit bnb ~6–8GB
GGUF Q4 Chạy được trên CPU (khuyến nghị ≥16GB RAM)

License

Apache-2.0