fastllm 模型权重转化之后和原来的模型回答的内容不一致

模型权重转化之后和原来的模型回答的内容不一致

Open Whylickspittle opened this issue 5 months ago • 1 comments

我去载入meta-llama/Meta-Llama-3.1-8B-Instruct 这个8b 模型，我用cuda:0 去用vllm载入一下这个模型正常占用22G左右显存，然后我用cuda:1 用fastllm同样去载入这个模型，他这个convert了之后只占用16G左右的显存，但是我去取一个相同的数据集，去检测这两个模型，我发现这两个模型的回答的内容可以说基本上完全不一致。同源都是safetensors的模型，vllm是直接载入，fastllm转换了一下格式，为什么两个的回答就不能完全符合了呢，同样的模型换了一个推理的框架答案就不一样了吗。

Sep 11 '24 08:09 Whylickspittle

fastllm fastllm copied to clipboard

模型权重转化之后和原来的模型回答的内容不一致

fastllm
fastllm copied to clipboard