JY HUA

Results 1 comments of JY HUA

Mengzi-T5-base-MT训练过程使用fp16,保存模型的权重对应也是fp16,不影响直接加载使用。 而Mengzi-T5-base训练过程使用fp32,保存模型的权重对应也是fp32。 可以在`config.json`中查看参数`torch_dtype`,可以看到对应是`float16`或`float32`。