Support indextts-2

https://github.com/index-tts/index-tts
https://arxiv.org/abs/2506.21619
https://index-tts.github.io/index-tts2.github.io/

特点：
- base model 是 qwen3
- 情绪特征分离

目前还没开源

问题：
情绪特征提取不只是从文本，也可以从音频中提取，这块目前还没支持，得增加类似音色提取的管线处理这个逻辑。
（不过，情绪提取的效果怎么样还不确定，也许和直接1shot没区别？）