fastllm
fastllm copied to clipboard
模型权重转化之后和原来的模型回答的内容不一致
我去载入meta-llama/Meta-Llama-3.1-8B-Instruct 这个8b 模型,我用cuda:0 去用vllm载入一下这个模型 正常占用22G左右显存,然后我用cuda:1 用fastllm同样去载入这个模型,他这个convert了之后只占用16G左右的显存,但是我去取一个相同的数据集,去检测这两个模型,我发现这两个模型的回答的内容可以说 基本上完全不一致。 同源都是safetensors的模型,vllm是直接载入,fastllm转换了一下格式,为什么两个的回答就不能完全符合了呢,同样的模型换了一个推理的框架答案就不一样了吗。