HTR CREMMA Medieval 2026

Modèles Kraken fine-tunés pour la reconnaissance d'écriture manuscrite (HTR) sur le corpus CREMMA Medieval — manuscrits du XIIIe siècle en ancien français (fro) et latin (la), écriture gothique (Textualis).

Modèle de base : cremma-generic-1.0.1 (Kraken / ketos).

Modèles disponibles

Fichier Expérience CER (validation) Données
exp2_binarise_20260613.safetensors Baseline ~26.3% binarisé/RGB
exp3_clean_arrow_20260613.safetensors Arrow filtré grayscale ~26.4% grayscale (mode L)
exp3opt_finetune_20260615.safetensors Grayscale + LR cosine 26.4% grayscale (mode L)

Référence : modèle de base seul (sans fine-tuning) = 44% CER. Le fine-tuning fait passer la CER de 44% à ~26% (−18 pts).

Métriques — précisions importantes

  • Les CER ci-dessus sont mesurées sur le set de validation (dev), pas sur un set de test scellé. Elles sont donc à considérer comme optimistes.
  • L'évaluation sur test scellé n'est pas encore réalisée.

Format

Les fichiers sont des checkpoints .safetensors (mode one_channel_mode: L). Pour une utilisation directe avec kraken ocr, une conversion en .mlmodel peut être nécessaire.

Corpus

  • 21 manuscrits, 213 documents, ~18 800 lignes (après filtrage des zones bruit).
  • 100% XIIIe siècle, écriture gothique Textualis.
  • Déséquilibre connu : BnF fr. 412 représente ~31% du train.

Citation

@misc{htr-cremma-medieval-2026,
  title  = {HTR CREMMA Medieval 2026 — Fine-tuning Kraken sur manuscrits médiévaux},
  year   = {2026},
  url    = {https://huggingface.co/legb/htr-cremma-medieval}
}

Licence : CC-BY 4.0

Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support