---
language:
- dyu
tags:
- audio
- automatic-speech-recognition
- wav2vec2
- xlsr
- dioula
- bambara
- low-resource
- west-african-languages
license: apache-2.0
datasets:
- OBY632/merged-bambara-dioula-dataset
metrics:
- wer
base_model: facebook/wav2vec2-large-xlsr-53
pipeline_tag: automatic-speech-recognition
---

# XLSR-Wav2Vec2 — ASR Dioula/Bambara

Modèle de reconnaissance automatique de la parole (ASR) pour le **Dioula/Bambara**,
fine-tuné depuis [`facebook/wav2vec2-large-xlsr-53`](https://huggingface.co/facebook/wav2vec2-large-xlsr-53)
sur le dataset [`OBY632/merged-bambara-dioula-dataset`](https://huggingface.co/datasets/OBY632/merged-bambara-dioula-dataset) (67h).

## Résultats

| Métrique | Valeur |
|----------|--------|
| WER (validation) | **48.04%** |
| Train Loss finale | 0.7291 |
| Dataset | OBY632/merged-bambara-dioula-dataset |
| Split évaluation | validation |

## Utilisation

```python
import torch
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
import librosa

# Charger le modèle et le processor
model_id = "Klayt/xlsr-dioula-asr"
processor = Wav2Vec2Processor.from_pretrained(model_id)
model     = Wav2Vec2ForCTC.from_pretrained(model_id)
model.eval()

# Charger un fichier audio (16kHz mono)
audio, sr = librosa.load("audio.wav", sr=16000)

# Inférence
inputs = processor(audio, sampling_rate=16000, return_tensors="pt", padding=True)
with torch.no_grad():
    logits = model(**inputs).logits

pred_ids      = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(pred_ids)[0]
print(transcription)
```

## Entraînement

- **Modèle de base** : `facebook/wav2vec2-large-xlsr-53`
- **Dataset** : `OBY632/merged-bambara-dioula-dataset` (67h, Dioula/Bambara)
- **Epochs** : 3
- **Learning rate** : 3e-4 avec scheduler cosine
- **Batch effectif** : 16
- **Framework** : HuggingFace Transformers + PyTorch
- **GPU** : CUDA 12.8
- **Date** : 2026-04-12

## Limitations

- Le modèle a été entraîné principalement sur du Dioula/Bambara — les variantes
  dialectales peuvent donner des résultats dégradés.
- Les tons lexicaux ne sont pas encore modélisés explicitement.
- Un WER de 48.04% reflète l'état d'un premier fine-tuning ;
  des itérations supplémentaires (plus de données, augmentation audio) amélioreront
  les performances.

## Langues

Le Dioula (aussi écrit Dyula) et le Bambara sont des langues mandé parlées
principalement en Côte d'Ivoire, au Mali et au Burkina Faso.
Code ISO 639-3 : `dyu` (Dioula), `bam` (Bambara).