wushanglin

Results 4 comments of wushanglin

https://github.com/wu-shanglin/accessToken-to-apiKey 希望对你有帮助

经过反复测试,显存为6G,int4模型情况下,是由于显存占满导致溢出至内存处理的问题,因为速率不一致,他们交换数据时显卡无法发挥最大性能,windows的解决方法是关闭独显模式,使集显运行windows资源管理器,这样可以腾出0.5G显存,刚好足够跑下一个int4模型,第一次对话加载模型后,即可秒答复