HTR CREMMA Medieval 2026
Modèles Kraken fine-tunés pour la reconnaissance d'écriture manuscrite (HTR) sur
le corpus CREMMA Medieval — manuscrits du XIIIe siècle en ancien français
(fro) et latin (la), écriture gothique (Textualis).
Modèle de base : cremma-generic-1.0.1 (Kraken / ketos).
Modèles disponibles
| Fichier | Expérience | CER (validation) | Données |
|---|---|---|---|
exp2_binarise_20260613.safetensors |
Baseline | ~26.3% | binarisé/RGB |
exp3_clean_arrow_20260613.safetensors |
Arrow filtré grayscale | ~26.4% | grayscale (mode L) |
exp3opt_finetune_20260615.safetensors |
Grayscale + LR cosine | 26.4% | grayscale (mode L) |
Référence : modèle de base seul (sans fine-tuning) = 44% CER. Le fine-tuning fait passer la CER de 44% à ~26% (−18 pts).
Métriques — précisions importantes
- Les CER ci-dessus sont mesurées sur le set de validation (dev), pas sur un set de test scellé. Elles sont donc à considérer comme optimistes.
- L'évaluation sur test scellé n'est pas encore réalisée.
Format
Les fichiers sont des checkpoints .safetensors (mode one_channel_mode: L).
Pour une utilisation directe avec kraken ocr, une conversion en .mlmodel
peut être nécessaire.
Corpus
- 21 manuscrits, 213 documents, ~18 800 lignes (après filtrage des zones bruit).
- 100% XIIIe siècle, écriture gothique Textualis.
- Déséquilibre connu : BnF fr. 412 représente ~31% du train.
Citation
@misc{htr-cremma-medieval-2026,
title = {HTR CREMMA Medieval 2026 — Fine-tuning Kraken sur manuscrits médiévaux},
year = {2026},
url = {https://huggingface.co/legb/htr-cremma-medieval}
}
Licence : CC-BY 4.0
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support