imempty
imempty
碰到同样的问题,也是用GPU训练层级多标签分类模型后,按照官方教程导出,再使用simple_serving方式部署,只传了一条待处理句子,多次请求,10次有9次都返回为空,有返回时结果也是错误的,还会出现同时返回多个标签,并且有返回时每次结果还会变化。@abbydev,看到你三四月时就问过层次文本分类的问题,都12月了才进行到部署工作?你是学生?
> 我是很想支持国产,可是这个paddle社区不是很活跃,官方也不理不睬。@imempty 我3-4月是初次用的paddle框架,GPU部署早就上线了。 我遇到的问题是:我在GPU环境训练的模型,导出后想在CPU环境部署起来,就遇到了这个问题 MemoryError: (ResourceExhausted) Fail to alloc memory of 8245807622825612480 size, error code is 12. [Hint: Expected error == 0, but received error:12 != 0:0.] (at /paddle/paddle/fluid/memory/allocation/cpu_allocator.cc:50) [operator...
> @imempty 你用simple_serving+GPU部署能正常使用?====是的 simple_serving+CPU部署如issue一楼所示的报错问题解决了?====能启动起来,但是调用三次就内部错误了 你这个新的报错看起来像是内存不够,可这个size的数字看起来好大!=====[https://github.com/PaddlePaddle/PaddleNLP/issues/7231,但是我试过没有用](https://github.com/PaddlePaddle/PaddleNLP/issues/7231%EF%BC%8C%E4%BD%86%E6%98%AF%E6%88%91%E8%AF%95%E8%BF%87%E6%B2%A1%E6%9C%89%E7%94%A8) 我理解的是:导出的模型和框架是解耦的,而且高版本的paddle应该向下兼容的,但实际上并不是这样,我都有点想换pytorch了,国产的遇到了问题,支持力度不够,也没个官方的来维护冒泡,这个就是百度10几年来的通病,高开低走,后劲不足。。。请原谅我的言辞冒犯了,但是事实就是如此 刚又看了下,simple_serving没有显式设置使用GPU推理的选项吧?至少它的service.py和client.py里都没有。 我当初选paddle是图它傻瓜式集成,看教程感觉跟着官方步骤走就能实现需求。但实际执行起来发现bug很多,原封不动地用官方项目代码根本跑不起来。 问问题没人解决,继续下去就是下一个mxnet
> 您好,请问这个问题您解决了吗,我也遇到了类似的问题,我用的是qwen1.5-7b的chat模型,即使我用bf16,推理速度仍然非常慢,平均一句很短的小问题都要好几秒钟。 我也是,跟你一样的模型和配置。随便问个问题,回复都需要2分钟。搜谷歌百度,暂时没看到其他人反馈,在github上看到两三次。另外,model.generate的方式好复杂,每次调用都需要附带一大推代码。原来的model.chat简洁太多!
> TextStreamer HuggingFace Transformers 的TextStreamer?推理速度能恢复正常?同样的硬件和问题,chatglm3只需1-2秒
> > TextStreamer > > HuggingFace Transformers 的TextStreamer?推理速度能恢复正常?同样的硬件和问题,chatglm3只需1-2秒 刚试了,还是很慢,只是变成流式输出了,每次回复会重复两遍,这新问题咋整。没解决问题啊
> CPU跑步了在线量化,要用到在线算子,你看一下最新代码怎么加载的,hf 和github都要更新 只更新相关Python包就可以解决? 我就用的官网示例加载代码:https://github.com/THUDM/ChatGLM3?tab=readme-ov-file#%E6%A8%A1%E5%9E%8B%E9%87%8F%E5%8C%96