-
Notifications
You must be signed in to change notification settings - Fork 0
/
cam++.yml
100 lines (95 loc) · 2.92 KB
/
cam++.yml
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
# 数据集参数
dataset_conf:
# 过滤最短的音频长度
min_duration: 0.5
# 最长的音频长度,大于这个长度会裁剪掉
max_duration: 5
# 是否裁剪静音片段
do_vad: False
# 音频的采样率
sample_rate: 16000
# 是否对音频进行音量归一化
use_dB_normalization: True
# 对音频进行音量归一化的音量分贝值
target_dB: -20
# 训练数据的数据列表路径
train_list: 'dataset/train_list.txt'
# 测试数据的数据列表路径
test_list: 'dataset/test_list.txt'
# 标签列表
label_list_path: 'label_list.txt'
# 评估的数据要特殊处理
eval_conf:
# 评估的批量大小
batch_size: 16
# 最长的音频长度
max_duration: 10
# 数据加载器参数
dataLoader:
# 训练的批量大小
batch_size: 16
# 读取数据的线程数量
num_workers: 0
# 是否丢弃最后一个样本
drop_last: True
# 数据增强参数
aug_conf:
# 是否使用语速扰动增强
speed_perturb: True
# 是否使用音量增强
volume_perturb: False
# 音量增强概率
volume_aug_prob: 0.2
# 噪声增强的噪声文件夹
noise_dir: 'dataset/noise'
# 噪声增强概率
noise_aug_prob: 0.2
# 是否使用SpecAug
use_spec_aug: True
# Spec增强参数
spec_aug_args:
# 随机频谱掩码大小
freq_mask_width: [ 0, 8 ]
# 随机时间掩码大小
time_mask_width: [ 0, 10 ]
# 数据预处理参数
preprocess_conf:
# 是否使用HF上的Wav2Vec2类似模型提取音频特征
use_hf_model: False
# 音频预处理方法,也可以叫特征提取方法
# 当use_hf_model为False时,支持:MelSpectrogram、Spectrogram、MFCC、Fbank
# 当use_hf_model为True时,指定的是HuggingFace的模型或者本地路径,比如facebook/w2v-bert-2.0或者./feature_models/w2v-bert-2.0
feature_method: 'Fbank'
# 当use_hf_model为False时,设置API参数,更参数查看对应API,不清楚的可以直接删除该部分,直接使用默认值。
# 当use_hf_model为True时,可以设置参数use_gpu,指定是否使用GPU提取特征
method_args:
sample_frequency: 16000
num_mel_bins: 80
optimizer_conf:
# 优化方法,支持Adam、AdamW、SGD
optimizer: 'Adam'
# 初始学习率的大小
learning_rate: 0.001
weight_decay: !!float 1e-6
# 学习率衰减函数,支持WarmupCosineSchedulerLR、CosineAnnealingLR
scheduler: 'WarmupCosineSchedulerLR'
# 学习率衰减函数参数
scheduler_args:
min_lr: !!float 1e-5
max_lr: 0.001
warmup_epoch: 5
model_conf:
# 分类大小,如果为null,自动通过标签列表获取
num_class: null
train_conf:
# 是否开启自动混合精度
enable_amp: False
# 是否使用Pytorch2.0的编译器
use_compile: False
# CrossEntropyLoss类的weight参数
loss_weight: null
# 训练的轮数
max_epoch: 60
log_interval: 10
# 所使用的模型
use_model: 'CAMPPlus'