wushanglin
Results
4
comments of
wushanglin
https://github.com/wu-shanglin/accessToken-to-apiKey 希望对你有帮助
我也有这个问题,很奇怪,我还以为pytorch的问题
经过反复测试,显存为6G,int4模型情况下,是由于显存占满导致溢出至内存处理的问题,因为速率不一致,他们交换数据时显卡无法发挥最大性能,windows的解决方法是关闭独显模式,使集显运行windows资源管理器,这样可以腾出0.5G显存,刚好足够跑下一个int4模型,第一次对话加载模型后,即可秒答复