LongAlign
LongAlign copied to clipboard
Needel_test CUDA OOM 了应该怎么解决?
token 太多OOM了应该怎么解决?
如果条件允许的话,可以用多gpu推理,只需要在load模型时传入device_map="auto"