riskivy
Results
3
comments of
riskivy
@imClumsyPanda 即便调低后,提交的文本较长,GPU 还是很容易溢出
@shubihu 目前测试下来,只能控制 token 数和加显存或者使用CPU,这个是ChatGLM模型很占这么多资源。
@wtxidian @Donnydong 那说明使用有问题的,显存的消耗最终是跟Token长度有关系,释放是肯定能释放的,如果没释放说明代码和使用有问题。我最终的业务在控制 Token 长度的情况下,16G显存也能稳定运行 ChatGLM-6B FP16 模型,已持续运行一周以上,未出现OOM。框架中是通过 torch_gc() 函数释放显存的。最后建议是不要直接复用代码你达到你的场景,是要去了解他的机制,再基于你们的场景调整代码,来达到效果。