--- language: - dyu tags: - audio - automatic-speech-recognition - wav2vec2 - xlsr - dioula - bambara - low-resource - west-african-languages license: apache-2.0 datasets: - OBY632/merged-bambara-dioula-dataset metrics: - wer base_model: facebook/wav2vec2-large-xlsr-53 pipeline_tag: automatic-speech-recognition --- # XLSR-Wav2Vec2 — ASR Dioula/Bambara Modèle de reconnaissance automatique de la parole (ASR) pour le **Dioula/Bambara**, fine-tuné depuis [`facebook/wav2vec2-large-xlsr-53`](https://huggingface.co/facebook/wav2vec2-large-xlsr-53) sur le dataset [`OBY632/merged-bambara-dioula-dataset`](https://huggingface.co/datasets/OBY632/merged-bambara-dioula-dataset) (67h). ## Résultats | Métrique | Valeur | |----------|--------| | WER (validation) | **48.04%** | | Train Loss finale | 0.7291 | | Dataset | OBY632/merged-bambara-dioula-dataset | | Split évaluation | validation | ## Utilisation ```python import torch from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor import librosa # Charger le modèle et le processor model_id = "Klayt/xlsr-dioula-asr" processor = Wav2Vec2Processor.from_pretrained(model_id) model = Wav2Vec2ForCTC.from_pretrained(model_id) model.eval() # Charger un fichier audio (16kHz mono) audio, sr = librosa.load("audio.wav", sr=16000) # Inférence inputs = processor(audio, sampling_rate=16000, return_tensors="pt", padding=True) with torch.no_grad(): logits = model(**inputs).logits pred_ids = torch.argmax(logits, dim=-1) transcription = processor.batch_decode(pred_ids)[0] print(transcription) ``` ## Entraînement - **Modèle de base** : `facebook/wav2vec2-large-xlsr-53` - **Dataset** : `OBY632/merged-bambara-dioula-dataset` (67h, Dioula/Bambara) - **Epochs** : 3 - **Learning rate** : 3e-4 avec scheduler cosine - **Batch effectif** : 16 - **Framework** : HuggingFace Transformers + PyTorch - **GPU** : CUDA 12.8 - **Date** : 2026-04-12 ## Limitations - Le modèle a été entraîné principalement sur du Dioula/Bambara — les variantes dialectales peuvent donner des résultats dégradés. - Les tons lexicaux ne sont pas encore modélisés explicitement. - Un WER de 48.04% reflète l'état d'un premier fine-tuning ; des itérations supplémentaires (plus de données, augmentation audio) amélioreront les performances. ## Langues Le Dioula (aussi écrit Dyula) et le Bambara sont des langues mandé parlées principalement en Côte d'Ivoire, au Mali et au Burkina Faso. Code ISO 639-3 : `dyu` (Dioula), `bam` (Bambara).