Hiragana Parakeet TDT/CTC 0.6B (Beta)

Beta Release - このモデルはベータ版です。精度やAPIは今後変更される可能性があります。

ひらがな専用の日本語音声認識モデル。漢字変換を排除し、音素レベルの認識に特化しています。

Model Details

Architecture: Conformer Encoder + TDT (Token-and-Duration Transducer) / CTC hybrid
Parameters: 616M
Base model: nvidia/parakeet-tdt_ctc-0.6b-ja
Output: ひらがなのみ（漢字・カタカナなし）
Tokenizer: SentencePiece Unigram (vocab size: 512, hiragana only)
Framework: NVIDIA NeMo

Training

Training data: ReazonSpeech subset (90,942 files, 146h train / 27h val / 7h test)
Text preprocessing: pyopenjtalk で漢字→カタカナ読み → jaconv でひらがな変換 → ひらがな以外除去
Fine-tuning: nvidia/parakeet-tdt_ctc-0.6b-ja からトークナイザーを差し替えてファインチューン

Performance

Metric	Value
Hiragana CER (CommonVoice JA v8.0 test 500samples)	5.68%
Val WER (best)	5.82%
CPU 1-core RTF	0.176 (5.7x realtime)

Hiragana CER 評価方法

評価データ: CommonVoice JA v8.0 の test split から 500 発話をサンプリング
正解テキスト: 原文（漢字混じり）を pyopenjtalk.g2p() → jaconv.kata2hira() でひらがなに変換し、ひらがな以外の文字を除去
予測テキスト: モデルの推論出力（ひらがな）に同じ正規化を適用
CER 計算: 正解と予測のレーベンシュタイン距離（文字単位編集距離）を全発話で合算し、正解の総文字数で割る

CER = Σ Levenshtein(ref_i, pred_i) / Σ len(ref_i)
    = 615 / 10819
    = 5.68%

出力例

REF (正解)	PRED (予測)	CER
きむらさんわわたしにしゃしんをみせてくれました	きむらさまわわたしにしゃんしをみせてくれました	13.0%
たなかさんのおくさんわだいがくのせんせーです	たなかさんのおくさんわだいがくのせんせーです	0.0%
わたしわまついさんがかいたさくぶんをよみました	わたしわまついさんがかいたさくぶんをよみました	0.0%

Usage

import nemo.collections.asr as nemo_asr

model = nemo_asr.models.EncDecHybridRNNTCTCBPEModel.restore_from("hiragana-parakeet-tdt-ctc-0.6b-ja.nemo")
transcriptions = model.transcribe(["audio.wav"])
print(transcriptions)  # ['ひらがなのてきすと']

Hiragana Conversion Logic

漢字テキストからひらがなへの変換は以下のパイプラインで行われます:

import pyopenjtalk, jaconv

text = "東京都渋谷区"
kana = pyopenjtalk.g2p(text, kana=True)  # "トーキョートシブヤク"
hira = jaconv.kata2hira(kana)             # "とーきょーとしぶやく"

Why Hiragana Only?

漢字変換が不要なため、モデルが音素認識に集中できる
同音異義語の曖昧性がないため、CTC/TDTデコーダの負荷が軽減
ひらがな→漢字変換は後段のLLM等で行うアーキテクチャを想定

Known Limitations (Beta)

学習データが ReazonSpeech subset (146h) のため、ドメイン外の音声では精度が低下する可能性があります
長音（ー）や促音（っ）の認識精度に改善の余地があります
今後、より大規模なデータで再学習予定

小型化の試み

1/10サイズ（64M params）の小型モデルも試みましたが、同等の精度には至りませんでした。

小型モデル	CER	結果
CTC-only (64M)	~16%	長文は実用的だが短文が苦手
CTC→TDT (65M, エンコーダ凍結)	~22%	blank collapse回避に成功したが精度不足
漢字CTC (64M)	学習不能	vocab 4096でblank collapse

同サイズの Moonshine-base-ja (61.5M) が CER 3.9% を達成しており、Conformer+CTC/TDTアーキテクチャではこのサイズ帯で Encoder-Decoder+Attention 型に対抗するのは困難と判断しました。

License

Apache-2.0

Citation

Based on:

NVIDIA Parakeet TDT/CTC 0.6B JA
ReazonSpeech (CC-BY-4.0)
Evaluation: Mozilla Common Voice JA v8.0

Downloads last month: 32

Model tree for kizuna-intelligence/hiragana-parakeet-tdt-ctc-0.6b-ja-beta

Base model

nvidia/parakeet-tdt_ctc-0.6b-ja

Finetuned

(3)

this model

kizuna-intelligence
/

hiragana-parakeet-tdt-ctc-0.6b-ja-beta