kingduxia
kingduxia
加载的是基于bichuan2-13b SFT lora训练后的模型权重,但是官方web_demo加载模型和vllm加载模型的推理输出不一致 查看代码web demo会使用基于模型中的generate_config参数 data:image/s3,"s3://crabby-images/7ed8b/7ed8bd3366a0f7f626d81ab6b716fdb3dcc572e1" alt="image" 同样的输入,输出结果符合预期 data:image/s3,"s3://crabby-images/ec010/ec0100f8c163ac550293054c5920d9f1675c6007" alt="image" 使用vllm进行推理加速,环境 A100,tp=2 请求参数 data:image/s3,"s3://crabby-images/79e0b/79e0b1d9105745683a8fa40c99420eb340cbca00" alt="image" prompt的组织方式在server侧调整为openai format data:image/s3,"s3://crabby-images/13947/13947f50edf2b2152b38f7f9cc570374989148f4" alt="image" 但是输出结果为 data:image/s3,"s3://crabby-images/bcf1d/bcf1d8f7bc7ad870a6eb5ecc2726de137dfd1487" alt="image" 多了一段不完整的问题内容重复 我理解不是模型微调的问题,毕竟是同一份模型权重数据,我理解还是模型输入的参数哪里没对齐,应该也不是vllm框架本身的问题 看vllm的代码,也做了类似generate_util的baichuan模型适配工作 vllm data:image/s3,"s3://crabby-images/969fd/969fdf6eb1dc96871e1c2ab66f1c5a568c6407da" alt="image" baichuan generate_util data:image/s3,"s3://crabby-images/039d9/039d959cdbd662a6ed87b1648c17cbe5990f7d8c" alt="image" 看需要怎么解?