ilovesouthpark
ilovesouthpark
`在满足调用empty的prompt以外的情况会准确提示和调用,empty的条件满足时无论选择哪个prompt实际调用的都是empty对应的prompt。我把58行这句改为了 '请你回答我的问题,并在回答开始前显示从我们的知识库中没有找到答案。以下回复来自模型自身,仅供参考::\n' # 对回答的来源进行了红色提示。
2b的模型,加载后需要4.8g显存,推理的使用需要5.7g所以6vgram有很大几率爆显存,我32g的内存占用了11g不到一点,16g估计应该可以。
10b模型需要的显存应该超过24G了,然后我32G内存,似乎也不够用,后续不知道能否提供int8或者int4的方案。
> 是的,但是因为要先导入内存,需要的内存大于32g,建议内存还是上到64g比较好
modeling_webglm.py里把1024改大
用cpu跑会发现真正的错误原因是IndexError: index out of range in self,这个问题超过我的能力范围去解决了,但是应该是个普遍的问题,看看开发团队能否提供额外的参数让大家方便调整。
同样的问题,我试了bing和google,都能出结果只不过是乱说的英文:),用英文问是正常没问题的。目前没有中文筛选和总结的功能
python web_demo.py -w G:\\model\\webglm。24g显存不够,32G内存不够,感觉需要将近26g
> 如果显存不够,可以尝试体验 WebGLM-2B 模型。虽然 10B 的性能优于 2B,但 2B 表现也不错,值得一试😆 是的,目前看效果还是可以的,就是能否再给点可以设置的指南对于调整筛选范围数量等。另外还是高几率出现IndexError: index out of range in self的问题。表现在gpu运行的时候出现如下错误,进行cpu运行时显示IndexError: index out of range in self 
RuntimeError: CUDA error: CUBLAS STATUS NOT SUPPORTED when calling cublasGemmix( handle, opa, opb, m,n,.k,&falpha CUDA R 16F,1da,i b,CUDA R 16F, ldb, &fbeta, C, CUDA R 16F, 1dc, CUDA R 32F,CUBLAS...