MOSS 推理结果的长度不足怎么调整，或者怎么让它继续推理

推理结果的长度不足怎么调整，或者怎么让它继续推理

Open SkySlity opened this issue 2 years ago • 11 comments

目前设备的量是够的，性能都是够的，配了4卡，但是推理的时候发现性能都没有拉满，慢就不说了，还非常的短，每次废话讲半天到重要的地方就截断了

Apr 24 '23 08:04 SkySlity

您好，请问您部署的方式是怎样的，推理用的代码是？截断是指生成了eom还是cuda报错

Apr 24 '23 09:04 piglaker

按照readme里的多卡部署，用jupyter测试的，我这边想用来做一些生成单元测试和代码审查。但是给出的回答tokens很短。说到一半就截止了。不知道该怎么调整，这边用了4张Tesla V100

Apr 24 '23 09:04 SkySlity

请问有输出的截图吗

Apr 24 '23 09:04 piglaker

Apr 24 '23 09:04 SkySlity

截断截图稍等我晚点上传，我得重新跑下，有点慢

Apr 24 '23 09:04 SkySlity

现在是这样，不认真回答了

Apr 24 '23 09:04 SkySlity

估计回答不出来才是正常现象

Apr 24 '23 09:04 scarydemon2

我部署了一些大语言模型，很多需要设置回复的max_token，目前设备在采购中还未部署，你可以看一下是不是有token的限制

Apr 25 '23 01:04 SailNow

这个只有max_new_tokens=256 这个参数，但是我改大到2048 似乎没什么变化

Apr 25 '23 04:04 SkySlity

设置 skip_special_tokens=False ，打印response看最后是不是 eom，如果是（我觉得大概率是），那说明模型就只给你这点输出。

Apr 25 '23 09:04 EricLingRui