方言语音识别综述

Mandarin speech recognition (MSR) --> dialect speech recognition (DSR)

# 中国方言概述

一般来说，中国方言可分为十类，即北方官话（普通话）、晋语、吴语、回族、平话、赣语、湘语、闽语、粤语和客家话。
口音是一种从方言中获得语调和音韵的发音风格，这也是汉语ASR识别的挑战之一；
需要为方言准备发音词典、声学模型和语言模型；
发音词典：实现音素和字形之间的映射，有时也称为发音词典，为方言文本的转写提供韵律和声调参考，为了方便查找和使用相关信息，已经开发了一些在线汉语方言发音词典；
语言模型：同传统ASR【N-gram】
声学模型：同传统ASR【GMM/ANN-HMM；CTC；Attention】
当数据相对较少时，使用传统建模方法：动态弯(DTW)【孤立词识别】、HMM之类的，需要标注时进行强制对齐；
实验证明DNN-HMM>GMM-HMM，2021年构建了基于CNN的声学模型用于维吾尔语识别，--LSTM--BiLSTM；
端到端的基本就两种机制：CTC【成都、藏语】和注意力机制【赣方言、大同方言】
一些挑战
- 数据集的建立；
- 方言的时变性；
- 多方言/方言+普通话；
DSR具有微信版、网络版、综合媒体钱包、即时翻译软件、在线方言服务等形式。此外，还有基于方言语音服务的商用家用机器人，如Ava导医机器人和华龙医疗机器人。Spectrum开发和推广的智能医疗扬声器还能听懂方言和重口音普通话。
讯飞方言云服务：支持24种方言的识别和合成，为家电厂商提供全方位的方言识别技术。广东话、四川话、东北话、河南话、天津话、山东话、宁夏话的准确率均在90%以上。【微软、字节】
多语言ASR：wav2vec 2.0
模型优化
- 迁移学习：在特定方言上微调【2021年，拉萨语和藏语的跨语音识别模型】
- 生成对抗模型：生成特定地区的语音样本
- 多任务学习：低资源多方言场景

# 山西方言

方言特点
- 国内31省方言大概分为9个区域，山西方言属于“晋语”，中国北方唯一的“非官话”语言；
- 山西方言还在使用的最多的是名词和动词，其次是形容词，名词：“胰子”（香皂）、“记性”（记忆力）等；动词：“圪蹴”（蹲下）、“抠搜”（吝啬）、“锄倒”（摔倒）等；形容词：“摆到”（不知道）等。
《语音识别系统在山西方言中的实现与应用》2021年
- 模型：GMM-HMM/DNN-HMM，实现：Kaldi/HTK；
- 1000条方言词句用于训练；
- 在对朔州不同口音进行地区录取，结合所划区域，录音人大体分布在朔城区、怀仁县、右玉县、山阴县、应县这五个区域。由于普通话受到城镇化的影响，一些重要的方言特殊词难以听到，所以录音人大多选择口音浓重村乡的成年人或者青年人；
- 查阅《朔州方言志》，得到20个声母，38个韵母，采用国际音标（IPA）+声调标注
《山西朔州方言语音识别方法研究》2020年
- GMM-HMM声学模型在小区域和低资源数据量的情况下，识别率较高，随着数据量的加大，基声学模型的准确率逐渐提升，基于DNN-HMM声学模型的准确率逐渐超越；
《山西省公安厅对语言识别技术进行鉴定》：编印出《山西省方言常用词语集》和《山西方言词汇》
《山西大同地方方言语音识别技术及应用研究》2020年
- 大同方言相比于普通话多出了“入声”声调，入声发音短促，一发即收，音频的持续时间更短，提出多核卷积融合网络来提取语谱图中不同持续时长的音素特征，放在声学模型之前；
- 构建数据集：总时长9小时29分16秒，共11678条；
- 中北大学软件学院本科面向全山西招生，所以，院里学生都是山西本地人，全院3000多名本科在读学生。同学们通过采访、聊天、朗诵等形式收集到不同的语音语料，语音包括自然语音与朗读语音，内容涉及山西各地的风土人情、文化旅游等多个方面。

# 其他方言

《用于襄阳方言语音识别的人机交互系统研究》2023年
- 9440条，22个说话人，现场录制时分为慢读、正常读和快读；
- DNN-HMM优于GMM-HMM的各种优化策略；
- 以拼音作为建模单元搭建了CNN-CTC模型；
《基于深度学习的端到端南昌方言语音识别》2023年
- 6名南昌本地志愿者，对照特定文本，进行南昌方言录制，18.2小时，合计13988条；
- 使用Conformer-Transducer对普通话训练，然后迁移学习；
- 对比实验表明，编码网络模块全部微调效果最好；

# 方言数据集

数据集 - MagicHub (opens new window)，只有闽南、郑州、天津、济南、上海、武汉、西安、湖南、粤语、南昌、长沙
THUYG-20语料库：作为一个公开的维吾尔语语音数据集，THUYG20语料库由Aes Karrouz等人联合发表在《清华大学学报》上。该语料库记录在新疆30个地州，总音频时长为21h，涵盖了词汇中的45000多个单词，包括词素、音节和字符。共计348个语句。录音机利用IBM联想台式机的声卡和外部麦克风，在安静的环境中录制和阅读文学作品、新闻报道和其他材料。音频采样率为16 kHz，以单声道模式录制。由于THUYG-20语料库主要基于阅读材料，孤立词识别的表现令人印象深刻，但连续对话识别效果并不理想。
GCDC语料库：GCDC语料库中的方言属于赣方言。语料库总时长131.5小时，其中赣语发音69小时，普通话62.5小时。录音的文本内容包括新闻报道、小说、公告、诗歌、信件和散文六种类型，共310篇文献。语料库包括赣方言的19个子区，但他们的论文没有提及具体的录音信息，如音频采样率。
大同方言语料库：大同方言语料库由刘等发表在《中国北方大学学报（自然版）》上。该语料库收录了山西大同方言，总音频时长为12小时、21分钟和13秒，包括阅读和日常口语文本。共有8894条音频数据。大同方言语料库中的记录文本是相对均衡的。它能反映大同方言的声学特征。它适用于小方言的语音识别训练和测试，但说话人的数量和性别没有量化和分析。
RASC863语料库：RASC863（国家863计划资助的区域重音语音语料库）语料库是由中国社会科学院语言学研究所设计和构建的。第一批数据由上海、广州、厦门和重庆的4个地区口音组成，分别代表吴方言、越方言、闽方言和西南官话。它于2004年完成并出版。参与录制的志愿者人数为800人，使用USB声卡和电脑麦克风。每个地区有200人，男女比例均衡。阅读文本包括两种材料：阅读和自然说出的句子。第二批RASC863语料库包括6个其他地区口音：长沙、洛阳、南昌、太原、南昌和温州。RASC863包含丰富的方言口音内容，可以有效支持大规模语音识别系统的建设和应用。
混合口音普通话语料库：混合口音普通话语料是DataHall录制的一个开源语料库。录制音频全长200小时，共有6300名志愿者参与录制，男女比例1:1，覆盖广东、福建等34个省份。演讲者随机选择带有口音的普通话对话话题，并在安静的环境中使用安卓麦克风进行录音。音频采样率为16 kHz。该语料库中的语音数据包含多个位置，覆盖了广泛的口音，适用于大规模的口音语音识别系统。
语料库一般由阅读材料和日常口语两部分组成，当地的影视素材、新闻、广播音频可以是很好的数据集，应包括不同性别、年龄、社会背景和教育背景的说话人；
Praat软件被广泛用于标注方言字典中文本的声调和拼音；

# 其他

方言的调值与普通话不同，普通话分为12345，方言需要用Praat软件分析出调值【五度标记法】；
中国语言资源保护工程采录展示平台 (zhongguoyuyan.cn) (opens new window)

# 参考资料

声调T值法实验报告_praat怎么分析声调-CSDN博客 (opens new window)
五度标记法_百度百科 (baidu.com) (opens new window)
兴安方言声调调值测试 - 知乎 (zhihu.com) (opens new window)
《Chinese dialect speech recognition: a comprehensive survey》

上次更新: 2024/04/10, 22:12:29

← 主流ASR模型概述