fastllm
fastllm copied to clipboard
TP多卡部署
后续支持tp切分多卡部署吗?看FasterTransformer Bloom-7b的方案做tp切分,速度会有明显提升
Tensor并行要设计通信算子,涉及到通信就好多问题需要考虑。
是比较长期的计划了,工作量比较大 (而且我手头没双卡机器... )
确实。chatglm2-6b模型结构有更新,应该也有开发计划了吧,大佬加油