ChainStream未来将会运行一个体积庞大的Stream flow graph,其单位时间内的计算量和长期开机的累积计算量都是巨大的,会带来大量的token fee开销。目前已有大量不同类型性能的LLM,但对于用户开发者来讲,选用的LLM只需要满足其需求即可,但往往处于性能最大化的考虑选择最强最贵的模型,从而带来能多额外开销。
ChainStream希望从系统角度完成token fee最优化的问题。主要包括两个部分,定制模型和模型选择:
- 定制模型:针对某确定task,在一段数据积累后尝试微调一个定制LLM。
- 模型选择:云端最强模型、云端普通模型、本地模型、定制模型四选一,在开销和效果中找trade off。