HTR CREMMA Medieval 2026

Modèles Kraken fine-tunés pour la reconnaissance d'écriture manuscrite (HTR) sur le corpus CREMMA Medieval — manuscrits du XIIIe siècle en ancien français (fro) et latin (la), écriture gothique (Textualis).

Modèle de base : cremma-generic-1.0.1 (Kraken / ketos).

Modèles disponibles

Fichier	Expérience	CER (validation)	Données
`exp2_binarise_20260613.safetensors`	Baseline	~26.3%	binarisé/RGB
`exp3_clean_arrow_20260613.safetensors`	Arrow filtré grayscale	~26.4%	grayscale (mode L)
`exp3opt_finetune_20260615.safetensors`	Grayscale + LR cosine	26.4%	grayscale (mode L)

Référence : modèle de base seul (sans fine-tuning) = 44% CER. Le fine-tuning fait passer la CER de 44% à ~26% (−18 pts).

Métriques — précisions importantes

Les CER ci-dessus sont mesurées sur le set de validation (dev), pas sur un set de test scellé. Elles sont donc à considérer comme optimistes.
L'évaluation sur test scellé n'est pas encore réalisée.

Format

Les fichiers sont des checkpoints .safetensors (mode one_channel_mode: L). Pour une utilisation directe avec kraken ocr, une conversion en .mlmodel peut être nécessaire.

Corpus

21 manuscrits, 213 documents, ~18 800 lignes (après filtrage des zones bruit).
100% XIIIe siècle, écriture gothique Textualis.
Déséquilibre connu : BnF fr. 412 représente ~31% du train.

Citation

@misc{htr-cremma-medieval-2026,
  title  = {HTR CREMMA Medieval 2026 — Fine-tuning Kraken sur manuscrits médiévaux},
  year   = {2026},
  url    = {https://huggingface.co/legb/htr-cremma-medieval}
}

Licence : CC-BY 4.0

Downloads last month: -; Downloads are not tracked for this model. How to track

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support