OBY632/merged-bambara-dioula-dataset
Viewer • Updated • 85k • 68
Modèle de reconnaissance automatique de la parole (ASR) pour le Dioula/Bambara,
fine-tuné depuis facebook/wav2vec2-large-xlsr-53
sur le dataset OBY632/merged-bambara-dioula-dataset (67h).
| Métrique | Valeur |
|---|---|
| WER (validation) | 48.04% |
| Train Loss finale | 0.7291 |
| Dataset | OBY632/merged-bambara-dioula-dataset |
| Split évaluation | validation |
import torch
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
import librosa
# Charger le modèle et le processor
model_id = "Klayt/xlsr-dioula-asr"
processor = Wav2Vec2Processor.from_pretrained(model_id)
model = Wav2Vec2ForCTC.from_pretrained(model_id)
model.eval()
# Charger un fichier audio (16kHz mono)
audio, sr = librosa.load("audio.wav", sr=16000)
# Inférence
inputs = processor(audio, sampling_rate=16000, return_tensors="pt", padding=True)
with torch.no_grad():
logits = model(**inputs).logits
pred_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(pred_ids)[0]
print(transcription)
facebook/wav2vec2-large-xlsr-53OBY632/merged-bambara-dioula-dataset (67h, Dioula/Bambara)Le Dioula (aussi écrit Dyula) et le Bambara sont des langues mandé parlées
principalement en Côte d'Ivoire, au Mali et au Burkina Faso.
Code ISO 639-3 : dyu (Dioula), bam (Bambara).
Base model
facebook/wav2vec2-large-xlsr-53