ppppppppig
ppppppppig
> 130B一般人就玩不动了,至少双A100 是啊,我这边主要想调研下,是否能够根据[THUDM/FasterTransformer](https://github.com/THUDM/FasterTransformer)改进一份fastertransformer的代码,让fastertransformer能够支持跑GLM10B这些模型。 所以前期得关注下GLM10B和GLM130B模型差别在哪里,差别大不大。
> 6B,10B,130B是参数量为60亿、100亿、1300亿,一般来说参数量越多脑容量越大。 是否+chat我理解是代表有没有经过中文QA和对话数据集的训练。 是的,但是他们的模型结构也有调整,必须弄清楚调整了哪里,才能在FasterTransformer进行对应的调整。
Same request

> Based on FasterTransformer, we have implemented an efficient inference engine - [TurboMind](https://github.com/InternLM/lmdeploy#introduction) > > * It supports llama and llama-2 > * It modeled the inference of a conversational...