xubinxinant comments

Results 4 comments of


                                            xubinxinant

模型返回的结果，经常写到一半就不写了，停住了，4090 24g显卡，glm2-fp16 模式运行

你看看max token是不是设置的太小了，默认是2048，加大一点

模型返回的结果，经常写到一半就不写了，停住了，4090 24g显卡，glm2-fp16 模式运行

> max token我设置了一万，一般输出1000个字左右就会停住不写了看看后台输出，是完整内容还是停止了

文档对话模式运行就爆显存了， v100 32G，几次都不行

> +1, chatpgpt4 and chatglm2-6b support 32k tokens but wenda's setting is between 0 and 4096, the the default just 2048 token limit can be set max to 10k，please check...

文档对话模式运行就爆显存了， v100 32G，几次都不行

说一下我的环境，仅供参考。 4090卡，chatglm2-6b fp16.（加载模型后占用约15GB）文档大小14m pdf。50页（对话占用21.5GB，可以正常对话，max token拉到10000以上，防止不出结果）

xubinxinant

模型返回的结果，经常写到一半就不写了，停住了，4090 24g显卡，glm2-fp16 模式运行

模型返回的结果，经常写到一半就不写了，停住了，4090 24g显卡，glm2-fp16 模式运行

文档对话模式 运行就爆显存了， v100 32G， 几次都不行

文档对话模式 运行就爆显存了， v100 32G， 几次都不行

文档对话模式运行就爆显存了， v100 32G，几次都不行

文档对话模式运行就爆显存了， v100 32G，几次都不行