fastllm
fastllm copied to clipboard
chinese-llama-alpaca 模型 BUG
如题, 会出现爆显存的问题,并打印如下错误: status = 7 2049 1 128 Error: cublas error. terminate called after throwing an instance of 'char const*' Aborted (core dumped)
是不是输入长度超过2048了,早期的LLAMA好像限制了长度不超过2048 (其实就是rotary_embdding的时候位置编码只开到了2048),我之后把这个值开大应该就可以了
输入文本是: 北京有什么景点?
长度不会超过2048呀
- 通过在 response 接口中 限制 max_length=400, 不会出现爆显存的情况了。
- 但是生成的内容质量很差