Skip to content

Latest commit

 

History

History
65 lines (40 loc) · 2.59 KB

README_CN.md

File metadata and controls

65 lines (40 loc) · 2.59 KB

KWS_pytorch

Keyword spotting, Speech wake_up, pytorch, DNN, CNN, TDNN, DFSMN, LSTM

项目介绍

项目文件

  • commandloader.py: 定义类CommandLoader提取数据集,其中数据集格式为:path/关键词/语音文件
  • model.py: 定义了各种神经网络的具体结构,如DNN, CNN, TDNN, DFSMN, LSTM等
  • train.py: 训练数据的方法train,和测试数据的方法test
  • run.py: 主程序,通过其运行整个识别任务,在其中可设置训练所需的各种参数
  • utils: 项目实现过程中用到的一些工具,如对音频数据预处理切割为相同长度的音频,绘制loss图等

数据集

语音唤醒任务:

  • MobvoiHotwords: 是从Mobvoi的商业智能扬声器收集的唤醒单词的语料库
  • 由“ Hi xiaowen”和“ Nihao Wenwen”的关键字语音,以及非关键字语音组成
  • 国内镜像

关键词识别任务:

实验结果

关键词识别任务:

  • STFT:

acc

  • Deep KWS:

acc_KWS

  • Table of Accuary:
Module epoch1 epoch2 epoch3 epoch4 epoch5 text
DNN 38.57% 52.85% 58.81% 67.48% 71.00% 62.59%
CNN 95.30% 96.12% 96.30% 97.20% 96.75% 95.17%
TDNN 70.10% 69.02% 74.35% 77.87% 80.76% 76.50%
LSTM 57.36% 74.35% 75.16% 79.31% 81.39% 78.75%
DFSMN 91.15% 92.14% 94.94% 93.86% 94.04% 90.34%
DNN(KWS) 87.97% 90.37% 91.04% 91.18% 90.44% 89.67%

语音唤醒:

  • 基于Deep_KWS的Accuracy:

acc

  • 基于Deep_KWS的Loss:

loss