dayang comments

Results 5 comments of


                                            dayang

为什么推理速度会随着会话增多，逐渐变慢？

> > 现在输入6条历史记录，你可以限制更少。我在4090上挺快的，8位量化 > > messages[-6:]。messages[-2:] > > 我现在单卡部署8位量化速度正常了，之前是auto自动分配到两块32G的V100上，速度很慢，不知道是什么问题我也是这个问题，单卡V100 启动 chat 模型，速度嘎嘎快，用双卡V100 32G 启动速度还变慢了，，

为什么推理速度会随着会话增多，逐渐变慢？

> > 现在输入6条历史记录，你可以限制更少。我在4090上挺快的，8位量化 > > messages[-6:]。messages[-2:] > > 我现在单卡部署8位量化速度正常了，之前是auto自动分配到两块32G的V100上，速度很慢，不知道是什么问题有多张显卡的情况下，怎么单卡启动？

[Question] 推理调用AutoModelForCausalLM时报错没有安装configuration_baichuan怎么办

使用model space 下载之后启动模型也会报这个错

[Question] 推理调用AutoModelForCausalLM时报错没有安装configuration_baichuan怎么办

该怎么解决呢

dayang

最新版本v6.0.7 编译时报错

为什么推理速度会随着会话增多，逐渐变慢？

为什么推理速度会随着会话增多，逐渐变慢？

[Question] 推理调用AutoModelForCausalLM时报错没有安装configuration_baichuan怎么办

[Question] 推理调用AutoModelForCausalLM时报错没有安装configuration_baichuan怎么办