语音识别

主流ASR模型概述

主要针对中文语音识别

# 主流模型

模型	开发	技术
Paraformer	阿里
Zipformer	小米
Wav2Vec 2.0	Facebook
Whisper	OpenAI
WeNet		Conformer+CTC
Flan-T5
WavLM

以CTC或Transducer为主导的端到端语音识别系统，CTC或Transducer是两种不同的损失函数
CTC不加语言模型的，出字的时候只考虑当前的帧，不会考虑前文的关系

# Connectionist Temporal Classification (CTC)

CTC不依赖语言模型，但可以与语言模型结合使用

# 其他

流式识别：sherpa-ncnn (K2)
多语言

# 参考资料

细数语音识别中的几个former_paraformer 内存-CSDN博客 (opens new window)

上次更新: 2024/04/10, 22:12:29

← yesno语音识别示例方言语音识别综述→

01
方言语音识别综述 04-05

02
一些参考图表及表述 05-28

03
folded-based网络稀疏研究 04-29

更多文章>