MaroneAI/French-Wolof_Translation-Dataset
Viewer • Updated • 30k • 34 • 2
How to use MaroneAI/nllb-Wolof-to-French-615M with Transformers:
# Use a pipeline as a high-level helper
# Warning: Pipeline type "translation" is no longer supported in transformers v5.
# You must load the model directly (see below) or downgrade to v4.x with:
# 'pip install "transformers<5.0.0'
from transformers import pipeline
pipe = pipeline("translation", model="MaroneAI/nllb-Wolof-to-French-615M") # Load model directly
from transformers import AutoTokenizer, AutoModelForMultimodalLM
tokenizer = AutoTokenizer.from_pretrained("MaroneAI/nllb-Wolof-to-French-615M")
model = AutoModelForMultimodalLM.from_pretrained("MaroneAI/nllb-Wolof-to-French-615M")Ce modèle est une version fine-tunée de facebook/nllb-200-distilled-600M, spécialisée pour la traduction automatique du Wolof vers le Français.
Il a été entraîné sur un corpus personnalisé de paires de phrases Wolof–Français, afin d’améliorer la qualité de traduction pour des contextes linguistiques sénégalais et africains, souvent mal couverts par les modèles multilingues génériques.
| Paramètre | Valeur |
|---|---|
| Base model | facebook/nllb-200-distilled-600M |
| Direction | Wolof → Français |
| Taille max. des séquences | 128 tokens |
| Batch size effectif | 20 × accumulation 20 |
| Optimiseur / LR | AdamW / 2e-5 |
| Nombre d’époques | 8 |
| FP16 (GPU) | Activé |
| Meilleur checkpoint | Sélection automatique via BLEU score |
Les données proviennent d’un dataset local train.csv, structuré comme suit :
| inputt (wolof) | target (français) |
|---|---|
| "Naka nga def ?" | "Comment vas-tu ?" |
| "Jërëjëf." | "Merci." |
Un nettoyage automatique a été appliqué pour :
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
model_name = "MaroneAI/nllb-Wolof-to-Frensh-615M"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
text = "Naka nga def?"
inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(**inputs, max_length=128)
print("🗣️ Traduction:", tokenizer.decode(outputs[0], skip_special_tokens=True))
Base model
facebook/nllb-200-distilled-600M