Skip to content

madderscientist/timbreAMT

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

13 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

基于人工智能的多音色自动复调音乐转录研究

目标是实现乐器无关的音源分离扒谱,其中音源分离完全依赖音色。

文件与流程

9-11月阅读论文。尝试了几个模型,主要是MT3和BasicPitch。做了些小实验: 看到人声分离的论文大多使用mask,但相位直接用了原输入的,这合理吗?于是交换了两个音频的相位,发现相位才是表意的,无论是语音还是音乐。

第一步:制作数据集

12月开始编写随机合成数据集的制作脚本,详见data文件夹。这一过程中写了一些通用工具代码存放于utils文件夹。此外还完成了torch下的CQT层等其他层。

第二步:音色无关转录

历时两个月(2025.01~2025.03初),完成了对标BasicPitch的模型设计与训练,见basicAMT。主要贡献有:修复了很多bug、完善了随机合成数据集的制作、更改CQT的hop从384变为256、完成了模型的帧级评估、完成了模型输出到具体音符的转化函数。可以说,AMT模型开发的整个流程已经搭建完成。

其实在此之前尝试过直接完成音色分离转录,但是失败了。还完成了毕设的开题报告、文献翻译、开题答辩。

第三步:音色分离转录

历时一个月(2025.03初~2025.04初),在中期检查前结束了毕设的主要工作。 从Hopfield到Hebb到Attention,从LinearAttention到FlowAttention,在“音色无关转录”的基础上增加了聚类分支,实现了初步的音色分离转录,相关结果见septimbre。得益于音色无关转录任务,找对了方向后进展非常快。

文件夹结构

├─basicamt “音色无关转录”
├─basicpitch 作为“音色无关转录”的baseline,对比用
|
├─septimbre “音色分离转录”
|
├─evaluate 模型评估
|
├─data 数据相关,如训练集、可视化
├─model 存放一些公用的torch.nn.Module
└─utils 存放一些公用的工具函数