Tao Kai
Results
2
issues of
Tao Kai
hello friend, how can I specify the GPU device number for a TRTModule? such as cuda:0 or cuda:1 etc
大佬您好, 我这边测试chatglm2 fp16模型,pytorch的模型单句推理可输入的token最大长度约7000,但是转成fastllm以后token长度2600左右显存就会爆掉(我的显卡是V100,显存16G,模型参数载入后占用12G);请问是什么原因呢?您的代码可否优化解决?谢谢