dayang
dayang
我的linux 版本是centos 7.9
> > 现在输入6条历史记录,你可以限制更少。我在4090上挺快的,8位量化 > > messages[-6:]。messages[-2:] > > 我现在单卡部署8位量化速度正常了,之前是auto自动分配到两块32G的V100上,速度很慢,不知道是什么问题 我也是这个问题,单卡V100 启动 chat 模型,速度嘎嘎快,用双卡V100 32G 启动速度还变慢了,,
> > 现在输入6条历史记录,你可以限制更少。我在4090上挺快的,8位量化 > > messages[-6:]。messages[-2:] > > 我现在单卡部署8位量化速度正常了,之前是auto自动分配到两块32G的V100上,速度很慢,不知道是什么问题 有多张显卡的情况下,怎么单卡启动?
使用model space 下载之后启动模型也会报这个错