https://github.com/index-tts/index-tts https://arxiv.org/abs/2506.21619 https://index-tts.github.io/index-tts2.github.io/ 特点: - base model 是 qwen3 - 情绪特征分离 目前还没开源 问题: 情绪特征提取不只是从文本,也可以从音频中提取,这块目前还没支持,得增加类似音色提取的管线处理这个逻辑。 (不过,情绪提取的效果怎么样还不确定,也许和直接1shot没区别?)
https://github.com/index-tts/index-tts
https://arxiv.org/abs/2506.21619
https://index-tts.github.io/index-tts2.github.io/
特点:
目前还没开源
问题:
情绪特征提取不只是从文本,也可以从音频中提取,这块目前还没支持,得增加类似音色提取的管线处理这个逻辑。
(不过,情绪提取的效果怎么样还不确定,也许和直接1shot没区别?)