---
language:
- ar
- en
license: apache-2.0
base_model: Qwen/Qwen2-VL-2B-Instruct
tags:
- vision
- ocr
- arabic
- qwen2-vl
pipeline_tag: image-text-to-text
---

# Waraqon: Arabic OCR Model

Fine-tuned Qwen2-VL-2B for Arabic OCR with HTML output.

## Usage

```python
from transformers import Qwen2VLForConditionalGeneration, AutoProcessor
from qwen_vl_utils import process_vision_info
from PIL import Image
import torch

model = Qwen2VLForConditionalGeneration.from_pretrained(
    "FatimahEmadEldin/Waraqon-Arabic-OCR-HTML-Qari-Fine-Tuned",
    torch_dtype=torch.float16,
    device_map="auto",
    trust_remote_code=True
)
processor = AutoProcessor.from_pretrained("FatimahEmadEldin/Waraqon-Arabic-OCR-HTML-Qari-Fine-Tuned", trust_remote_code=True)

image = Image.open("image.jpg")
messages = [{
    "role": "user",
    "content": [
        {"type": "image", "image": image},
        {"type": "text", "text": "Extract text in HTML format."}
    ]
}]

text = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(text=[text], images=image_inputs, videos=video_inputs, padding=True, return_tensors="pt").to(model.device)

with torch.no_grad():
    output_ids = model.generate(**inputs, max_new_tokens=1024)
    
generated_ids = [output_ids[len(input_ids):] for input_ids, output_ids in zip(inputs.input_ids, output_ids)]
output = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(output)
```

## License
Apache 2.0