-
Notifications
You must be signed in to change notification settings - Fork 183
Open
Description
看到几个库都说可以加速推理
- https://github.com/dffdeeq/Qwen3-TTS-streaming : 支持流式、加速6倍,可以并行
- https://github.com/andimarafioti/faster-qwen3-tts : 基于 CUDAGraph 优化,不支持并行,但是依赖很少,看评估最高可以加速10倍(40系)
TODOs
本库的对接需求就是,越快越好,但是需要方便对接,最好和原始仓库接口完全一样
- 需要修改推理模式,因为目前都是 model:version => 推理代码,所以要切换推理可能很麻烦,需要支持 checkpoint + infer engine => service 这样的组合,而不是固定的 (或者简单点也可以完全只实现一种engine)
- 引入代码库
Reactions are currently unavailable
Metadata
Metadata
Assignees
Labels
No labels