cheng peng

Results 49 comments of cheng peng

稍等一下 我更新一下实验配置, 做一下更详尽的实验

我直接在comment上修改了, 可以看一下最新的信息 https://github.com/Oneflow-Inc/libai/issues/150#issuecomment-1055148111

测试了本分支在T5上, 各种配置的表现. 其中开启checkpointing+纯数据并行 应该是综合性能最优的选择(实验3和实验6) T5上的实验数据 | | **打开checkpointing, batch_size=32** | 吞吐 | 0卡显存 | 1卡显存 | 2卡显存 | 3卡显存 | 4卡显存 | 5卡显存 | 6卡显存 | 7卡显存 | | --...

merge一下main分支

目前看来第一种方法是最灵活的, 但是感觉有一个问题就是, 用户没办法第一眼看到模型结构, 得配合config中submodule的传参, 看看传进来的子函数是什么, 然后配合model.py, 才能确定整体的网络结构. 在阅读代码的时候, 对于用户来说这个还是有点麻烦的, 这个问题有没有办法避免?

我有个糟糕的预感, 可能第一种写法, 在阅读代码的时候会最后变成 层层嵌套的那种方式. 要看一个东西可能得跳好几个地方.

这个我记得星宇在code review里面提过 这样确实会简洁一点

我感觉应该可以改. 改了以后可以跑一下其他的case, 比如`bash dev/model_test.sh`, 看看其他的模型有没有报错

是不是有一些变量没有及时释放

可以在四卡的机器上 本地跑一下 `bash dev/model_test.sh` 测试一下是否可以跑通模型的测试