Zhou's home Zhou's home
首页
说话人识别
算法题库
编程相关
语音识别
关于
  • 分类
  • 标签
  • 归档
  • 常用工具
  • 友情链接

ZhouWJ

吾生也有涯,而知也无涯
首页
说话人识别
算法题库
编程相关
语音识别
关于
  • 分类
  • 标签
  • 归档
  • 常用工具
  • 友情链接
  • yesno语音识别示例
  • 主流ASR模型概述
    • 主流模型
      • Connectionist Temporal Classification (CTC)
    • 其他
    • 参考资料
  • 方言语音识别综述
  • 语音识别
xugaoyi
2024-03-26
目录

主流ASR模型概述

主要针对中文语音识别

# 主流模型

模型 开发 技术
Paraformer 阿里
Zipformer 小米
Wav2Vec 2.0 Facebook
Whisper OpenAI
WeNet Conformer+CTC
Flan-T5
WavLM
  • 以CTC或Transducer为主导的端到端语音识别系统,CTC或Transducer是两种不同的损失函数

  • CTC不加语言模型的,出字的时候只考虑当前的帧,不会考虑前文的关系

# Connectionist Temporal Classification (CTC)

  • CTC不依赖语言模型,但可以与语言模型结合使用

# 其他

  • 流式识别:sherpa-ncnn (K2)
  • 多语言

# 参考资料

  • 细数语音识别中的几个former_paraformer 内存-CSDN博客 (opens new window)
#文献记录
上次更新: 2024/04/10, 22:12:29
yesno语音识别示例
方言语音识别综述

← yesno语音识别示例 方言语音识别综述→

最近更新
01
方言语音识别综述
04-05
02
一些参考图表及表述
05-28
03
folded-based网络稀疏研究
04-29
更多文章>
Theme by Vdoing | Copyright © 2019-2024 Evan Xu | MIT License
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式