rayvzn119

Results 6 comments of rayvzn119

> 没有显卡的话,是否有人研究过纯CPU的模式? 没意义。。。GPU推理都已经算很慢了,cpu得慢到什么程度。搞大模型的门槛还是得有卡

实测了一下,和chatglm6b效果有不少差距,例如在做prompt tuning时,moss经常会无法准确理解用户的意图,导致回答很奇怪。不过考虑到moss基座只有16b,glm的基座是130b,语义理解能力有差距很正常。感谢moss团队的开源,期待后续尝试更大的基座,看能否有进一步提高

> 理论上来说16B的模型效果肯定比6B的好 不是参数量越大越好的,moss16b实测效果不如glm6b,感觉跟基座模型能力有关

> > 实测了一下,和chatglm6b效果有不少差距,例如在做prompt tuning时,moss经常会无法准确理解用户的意图,导致回答很奇怪。不过考虑到moss基座只有16b,glm的基座是130b,语义理解能力有差距很正常。感谢moss团队的开源,期待后续尝试更大的基座,看能否有进一步提高 > > chatglm 6B的基座就是6B glm有个130b的基座,6b是基于这个优化训练而来的

> > > 我看来看去,哪里写了16B? > > > > > > 看不懂readme的中文啊 > > 这个README我是看不懂,一堆没用的中文,ctrl+F 16b 在哪呢? 16b就是160亿的意思,moss介绍里说了,它的参数量是160亿

> ref: https://zhuanlan.zhihu.com/p/617228238 专栏我看了,写的很好。大佬后续考虑开源这个lora魔法的实现吗?finetune后的效果我感觉非常好,连一些边角语义理解case都能识别到,就是翻译效果差了点