kingduxia

Results 1 issues of kingduxia

加载的是基于bichuan2-13b SFT lora训练后的模型权重,但是官方web_demo加载模型和vllm加载模型的推理输出不一致 查看代码web demo会使用基于模型中的generate_config参数 ![image](https://github.com/baichuan-inc/Baichuan2/assets/14851589/c69334a1-6cfb-482d-9ea8-ab1f0c260115) 同样的输入,输出结果符合预期 ![image](https://github.com/baichuan-inc/Baichuan2/assets/14851589/1c4307e8-a07e-4036-b1b5-52d7aa480e11) 使用vllm进行推理加速,环境 A100,tp=2 请求参数 ![image](https://github.com/baichuan-inc/Baichuan2/assets/14851589/7c941b2e-d55e-4f50-9e12-e23c24f401b9) prompt的组织方式在server侧调整为openai format ![image](https://github.com/baichuan-inc/Baichuan2/assets/14851589/edb83bc1-4999-4cee-8643-4002c1a798e8) 但是输出结果为 ![image](https://github.com/baichuan-inc/Baichuan2/assets/14851589/9934134b-6dad-4c42-9451-178ca00caba5) 多了一段不完整的问题内容重复 我理解不是模型微调的问题,毕竟是同一份模型权重数据,我理解还是模型输入的参数哪里没对齐,应该也不是vllm框架本身的问题 看vllm的代码,也做了类似generate_util的baichuan模型适配工作 vllm ![image](https://github.com/baichuan-inc/Baichuan2/assets/14851589/11eefe6c-a13f-4899-80b6-1a059e4cd7ac) baichuan generate_util ![image](https://github.com/baichuan-inc/Baichuan2/assets/14851589/b807806d-efff-4857-9097-0aa5a4e4dd05) 看需要怎么解?