--- language: - vi tags: - vision-language - qwen - vlm - gguf - pytorch license: apache-2.0 datasets: - minhduc168/dataset-qwen-vlm-extract-bill base_model: - unsloth/Qwen3-VL-2B-Instruct-bnb-4bit --- # Qwen3-VL-2B-Instruct Vietnamese (4-bit) Mô hình **Qwen3-VL-2B-Instruct** được fine-tune cho tác vụ **trích xuất thông tin hóa đơn, phiếu thu, đơn thuốc và chuẩn đoán bệnh tiếng Việt**. Model hỗ trợ hiểu hình ảnh và văn bản, phù hợp cho các bài toán OCR nâng cao, document understanding và information extraction. --- ## 🔥 Điểm nổi bật - ✅ Tối ưu cho **tiếng Việt** - ✅ Fine-tune cho **bill / invoice / prescription / diagnosis extraction** - ✅ Phiên bản **4-bit (bnb)** giúp giảm VRAM khi inference - ✅ Có thể chuyển sang **GGUF** để chạy local CPU - ✅ Tương thích với `transformers` --- ## 📂 Cấu trúc Repository - **`/merged_16bit`** Chứa trọng số **bnb 4-bit** để chạy với thư viện `transformers` + `bitsandbytes`. - **`/gguf`** Phiên bản GGUF dành cho `llama.cpp` hoặc các engine suy luận local. **Bao gồm:** - `Qwen3-VL-2B-Instruct-Vietnamese.Q4_K_M.gguf` — bản nén 4-bit chất lượng cao - `Qwen3-VL-2B-Instruct-Vietnamese.mmproj.gguf` — file projector xử lý hình ảnh --- ## 🚀 Hướng dẫn sử dụng ### ✅ Với Transformers ```python from transformers import Qwen2VLForConditionalGeneration, AutoProcessor model = Qwen2VLForConditionalGeneration.from_pretrained( "minhduc168/Qwen3-VL-2B-Instruct-Vietnamese", device_map="auto" ) processor = AutoProcessor.from_pretrained( "minhduc168/Qwen3-VL-2B-Instruct-Vietnamese" ) ``` ## ⚠️ Lưu ý quan trọng khi dùng GGUF (Vision Model) Đối với các model Vision-Language như **Qwen3-VL**, khi chuyển sang GGUF: ### Bắt buộc cần 2 file: 1️⃣ **Model chính** (`.gguf`) 2️⃣ **Projector** (`mmproj.gguf`) 👉 Thiếu file projector → model **không thể xử lý hình ảnh**. --- ## 📊 Dataset **Bao gồm:** - Hóa đơn bán lẻ - Phiếu thu - Đơn thuốc - Chứng từ tiếng Việt - Chuẩn đoán bệnh Định dạng **instruction-following** giúp model trích xuất dữ liệu có cấu trúc chính xác hơn. --- ## 🎯 Use Cases - Trích xuất thông tin hóa đơn tự động - Structured OCR - Document AI tiếng Việt - Medical / pharmacy bill parsing - Fintech document processing --- ## 📌 Gợi ý phần cứng | Quantization | VRAM đề xuất | |------------|------------| | 4-bit bnb | ~6–8GB | | GGUF Q4 | Chạy được trên CPU (khuyến nghị ≥16GB RAM) | --- ## License Apache-2.0