JerryDaHeLian
JerryDaHeLian
假设有两个node,每个node 上有8张GPU,各个node 上的batch size 的值可以设置不一样吗?
> I can run with a small amount of data, but large-scale data can cause errors: > > Some NCCL operations have failed or timed out. Due to the asynchronous...
数据集小没问题,数据集大就会timeout,很可能卡在tokenizer on dataset这一步,如果是,通过设置: --preprocessing_num_workers 128 解决。
同期待!
我是通过: --preprocessing_num_workers 128 解决的。
调大学习率,多来几个epoch。
https://github.com/Lightning-AI/lit-gpt/blob/96d66b4845ebe287b5dd57b45e584b38d4f660e7/lit_gpt/speed_monitor.py#L17-L57 这里有v100 支持的训练精度。
> 命令有点复杂。求作者更新一下readme,加入傻瓜式启动程序的教程,谢谢。 附议!
> 看来需要请作者更新下 readme,或者出个手把手 启动该项目数字人的视频教程。最好是“傻瓜式” 教程。 附议!
> 都是必须的。CPU跑不动这个模型的 不跑ernerf呢?