XLSR-Wav2Vec2 — ASR Dioula/Bambara

Modèle de reconnaissance automatique de la parole (ASR) pour le Dioula/Bambara, fine-tuné depuis facebook/wav2vec2-large-xlsr-53 sur le dataset OBY632/merged-bambara-dioula-dataset (67h).

Résultats

Métrique	Valeur
WER (validation)	48.04%
Train Loss finale	0.7291
Dataset	OBY632/merged-bambara-dioula-dataset
Split évaluation	validation

Utilisation

import torch
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
import librosa

# Charger le modèle et le processor
model_id = "Klayt/xlsr-dioula-asr"
processor = Wav2Vec2Processor.from_pretrained(model_id)
model     = Wav2Vec2ForCTC.from_pretrained(model_id)
model.eval()

# Charger un fichier audio (16kHz mono)
audio, sr = librosa.load("audio.wav", sr=16000)

# Inférence
inputs = processor(audio, sampling_rate=16000, return_tensors="pt", padding=True)
with torch.no_grad():
    logits = model(**inputs).logits

pred_ids      = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(pred_ids)[0]
print(transcription)

Entraînement

Modèle de base : facebook/wav2vec2-large-xlsr-53
Dataset : OBY632/merged-bambara-dioula-dataset (67h, Dioula/Bambara)
Epochs : 3
Learning rate : 3e-4 avec scheduler cosine
Batch effectif : 16
Framework : HuggingFace Transformers + PyTorch
GPU : CUDA 12.8
Date : 2026-04-12

Limitations

Le modèle a été entraîné principalement sur du Dioula/Bambara — les variantes dialectales peuvent donner des résultats dégradés.
Les tons lexicaux ne sont pas encore modélisés explicitement.
Un WER de 48.04% reflète l'état d'un premier fine-tuning ; des itérations supplémentaires (plus de données, augmentation audio) amélioreront les performances.

Langues

Le Dioula (aussi écrit Dyula) et le Bambara sont des langues mandé parlées principalement en Côte d'Ivoire, au Mali et au Burkina Faso. Code ISO 639-3 : dyu (Dioula), bam (Bambara).

Downloads last month: 58

Safetensors

Model size

0.3B params

Tensor type

F32

Model tree for Klayt/xlsr-dioula-asr

Base model

facebook/wav2vec2-large-xlsr-53

Finetuned

(365)

this model

Klayt
/

xlsr-dioula-asr