Chunjiang Ge (葛春江)
Chunjiang Ge (葛春江)
You could try to use pytorch 2.6.
是不是因为路径里面有 a,所以相当于加载了 moe 模型
之前的版本是判断模型路径里面是否有“a",判断加载 moe 还是 dense 模型,如果路径里有 a 会加载 moe 模型,导致你的训练变慢。现在这个已经修复
可以通过检查显存占用来检验加载的模型是否正确
The processor would process the images with varying resolutions between min pixels and max pixels. You could refer to [qwen2vl image processor](https://github.com/huggingface/transformers/blob/4fad35ee4ac3ebc63cb9781beca0706a3d43875e/src/transformers/models/qwen2_vl/image_processing_qwen2_vl.py).
只要输入给 llm 的 token id 是正确的就行,数据里面怎么存都行
我们也遇到这个情况,目前还没找到原因,我这边 zero2 8B 是可以正常训的,这个问题你们能稳定复现吗