nadcy

Results 1 comments of nadcy

应该是belle的用的模型是全精度fp32的llama,你可以看这个代码llama权重是fp32的: https://github.com/huggingface/transformers/blob/main/src/transformers/models/llama/modeling_llama.py,同样一个浮点数全精度的存储消耗肯定是半精度的两倍。