本次新人赛是Datawhale与天池联合发起的0基础入门系列赛事 —— 零基础入门语音识别之食物声音识别。赛题以语音识别为背景,要求选手使用给定的音频数据集进行建模,并完成食物声音识别任务。为更好的引导大家入门,我们为本赛题定制了学习任务。通过对本方案的完整学习,可以帮助掌握数据分析基本技能。
数据集来自Kaggle的“Eating Sound Collection”(可商用),数据集中包含20种不同食物的咀嚼声音,赛题任务是给这些声音数据建模,准确分类。作为零基础入门语音识别的新人赛,本次任务不涉及复杂的声音模型、语言模型,希望大家通过两种baseline的学习能体验到语音识别的乐趣。
-
- 理解赛题、下载数据集以及两条Baseline(本次学习教程以基于CNN的Baseline为主)
- 根据Baseline配置环境,也可以直接利用天池等环境运行
- 跑通并学习Baseline
-
- 赛题数据探索
- 音频相关知识点学习
-
- 学习多种音频数据特征
- 了解MFCC特征提取步骤
-
- 基于CNN的模型搭建、训练与验证
- 了解CNN原理
-
- 学习模型优化相关知识
- 自己尝试基于Baseline的模型进行优化或尝试其他模型以提升结果准确率
-
- 了解语音识别的基础背景知识
姓名 | 介绍 | 个人主页 |
---|---|---|
阿水 | Datawhale成员 | 公众号:Coggle数据科学 |
黎佳佳 | Datawhale成员 | 公众号:ICE的小窝 |
但扬杰 | 江西师范大学软件工程硕士,Datawhale成员 | github账号 |
陈安东 | 中央民族大学,Datawhale成员 | 知乎主页 |
付文豪 | Datawhale优秀学习者 | |
马琦钧 | Datawhale成员 |
项目构建与整合:阿水、黎佳佳
task1:陈安东、但扬杰
task2:黎佳佳
task3:陈安东、黎佳佳
task4:陈安东
task5:付文豪
task6:马琦钧