主流ASR模型概述
主要针对中文语音识别
# 主流模型
模型 | 开发 | 技术 |
---|---|---|
Paraformer | 阿里 | |
Zipformer | 小米 | |
Wav2Vec 2.0 | ||
Whisper | OpenAI | |
WeNet | Conformer+CTC | |
Flan-T5 | ||
WavLM |
以CTC或Transducer为主导的端到端语音识别系统,CTC或Transducer是两种不同的损失函数
CTC不加语言模型的,出字的时候只考虑当前的帧,不会考虑前文的关系
# Connectionist Temporal Classification (CTC)
- CTC不依赖语言模型,但可以与语言模型结合使用
# 其他
- 流式识别:sherpa-ncnn (K2)
- 多语言
# 参考资料
上次更新: 2024/04/10, 22:12:29