--- license: apache-2.0 language: - zh - en - yue - ja - ko tags: - speech-recognition - asr - onnx - sensevoice - funasr - fp16 pipeline_tag: automatic-speech-recognition base_model: iic/SenseVoiceSmall --- # SenseVoiceSmall ONNX(FP16) 本仓库为 **SenseVoiceSmall** 的 **FP16 ONNX** 导出版本,由 [ModelScope iic/SenseVoiceSmall](https://www.modelscope.cn/models/iic/SenseVoiceSmall) 经 [FunASR](https://github.com/alibaba-damo-academy/FunASR) 导出(float16),便于在 ONNX Runtime 等环境中直接使用,体积约 450MB。 ## 模型说明 - **来源**:阿里巴巴达摩院 [SenseVoice](https://github.com/FunAudioLLM/SenseVoice),Small 版本 - **格式**:ONNX(float16),含外部权重文件 `model.onnx.data` - **用途**:语音识别(ASR)、多语种识别(中文/粤语/英/日/韩等) - **输入**:16 kHz 单声道音频(如 wav) - **输出**:转写文本 ## 文件说明 | 文件 | 说明 | |------|------| | `model.onnx` | ONNX 计算图(FP16) | | `model.onnx.data` | 权重(约 468MB) | | `tokens.json` | 词表 | | `am.mvn` | 特征归一化参数 | | `config.yaml` | 模型与前端配置 | ## 使用示例 ### 使用 FunASR 推理 ```python from funasr import AutoModel model = AutoModel(model="ruska1117/SenseVoiceSmall-onnx-fp16", device="cpu") result = model.generate(input="audio.wav", language="auto") ``` ### 仅用 ONNX Runtime 加载 需按 FunASR 的前处理(如 WavFrontend、LFR、cmvn)准备输入,再调用 ONNX 推理;一般推荐通过 FunASR 使用。 ## 许可证与致谢 - 原始 SenseVoice 模型版权与许可证遵循 [FunAudioLLM/SenseVoice](https://github.com/FunAudioLLM/SenseVoice) 及 [ModelScope iic/SenseVoiceSmall](https://www.modelscope.cn/models/iic/SenseVoiceSmall)。 - 本 ONNX 导出仅做格式转换(FP16),不改变模型行为;使用前请遵守原模型的使用条款与许可证。 ## 引用 若使用 SenseVoice,请引用原项目: ```bibtex @article{sensevoice, title={SenseVoice: Multilingual Speech Foundation Model}, author={FunAudioLLM Team}, year={2024} } ```