Zhou's home Zhou's home
首页
说话人识别
算法题库
编程相关
语音识别
关于
  • 分类
  • 标签
  • 归档
  • 常用工具
  • 友情链接

ZhouWJ

吾生也有涯,而知也无涯
首页
说话人识别
算法题库
编程相关
语音识别
关于
  • 分类
  • 标签
  • 归档
  • 常用工具
  • 友情链接
  • Kaldi Toolbox

  • 算法原理梳理

  • 文献记录

  • 我的工作

    • 跨语种域适应
    • Fit-DNN在声纹识别的应用
    • Fit-DNN机理研究
    • Fit-RNN原理及应用
    • 论文写作相关
    • 动态储油池计算原理及应用
    • 动力系统相关分析
    • folded-based网络稀疏研究
    • 组会汇报20210828
      • 调整模型
      • 径向高斯分布
    • 专业英语_中文综述大纲
    • 专业英语_英文报告大纲
    • 一些ChatGPT的回答
  • 声纹识别
  • 我的工作
xugaoyi
2021-08-28
目录

组会汇报20210828

# 调整模型

  • Margin-based Loss Function:

    $$L_{a s}=-\frac{1}{N} \sum_{i=1}^{N} \log \frac{e^{s \cdot \psi\left(\theta_{y_{i}}\right)}}{e^{s \cdot \psi\left(\theta_{y_{i}}\right)}+\sum_{j=1, j \neq i}^{C} e^{s \cdot \cos \left(\theta_{j}\right)}}$$

    其中,$\psi\left(\theta_{y_{i}}\right)=\cos \left(m_{1} \theta_{y_{i}}+m_{2}\right)-m_{3}$,通过在不同位置施加$m$,分别对应A-Softmax,Arc-Softmax,Am-Softmax

  • LDA:传统线性降维,寻找子空间使得内类散度减小,类外散度增大

Loss Function LDA Metric EER(%) minDCF
softmax - cosine 8.8773 0.7026
512 cosine 3.6142 0.4058
cosface - cosine 7.2961 0.7089
512 cosine 3.6481 0.4276
arcface - cosine 6.0876 0.5942
512 cosine 3.6255 0.4006
  • 相比于传统的softmax+LDA,基于深度学习的分类方法仍有较大的改进空间

# 径向高斯分布

Softmax Loss Large-margin GM Loss

权重分量≈类均值≈高斯协方差的第一特征分量

  • Method1:添加损失函数dist(weight, mean),使得权重分量与类均值尽可能接近
  • Method2:添加损失函数,使得数据在类均值的投影最大,令类均值与第一特征分量尽可能接近
Loss Function EER(%) minDCF
Softmax 8.8773 0.7026
Softmax+Method1 8.6421 0.6574
Softmax+Method2 8.7322 0.6945
Softmax+Method1+Method2 8.6723 0.6846
Arcface 6.0876 0.5942
Arcface+Method1 5.8253 0.5593
Arcface+Method2 5.6964 0.5478
Arcface+Method1+Method2 5.8132 0.5688
  • 方法1与2几乎具有同样的几何意义,在softmax和arcface上,分别有2.64%和4.43%的性能提升
  • 增加最小圆半径限制似乎能帮助分类,但还没找到物理意义
#组会
上次更新: 2024/04/10, 22:12:29
folded-based网络稀疏研究
专业英语_中文综述大纲

← folded-based网络稀疏研究 专业英语_中文综述大纲→

最近更新
01
方言语音识别综述
04-05
02
主流ASR模型概述
03-26
03
一些参考图表及表述
05-28
更多文章>
Theme by Vdoing | Copyright © 2019-2024 Evan Xu | MIT License
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式