huang wei comments

Results 10 comments of


                                            huang wei

Dev add dalle2

> projects/DALLE2/dalle2/data/bpe_simple_vocab_16e6.txt > > 这个文件应该不用提到 git 吧，超大这个大约3M，感觉不是很大。。

Dev add dalle2

> > > projects/DALLE2/dalle2/data/bpe_simple_vocab_16e6.txt > > > 这个文件应该不用提到 git 吧，超大 > > > > > > 这个大约3M，感觉不是很大。。 > > 代码变更数量：+266,903 ok, 已经删除了

> > 在4卡机器上，这样启动的时间有点久，有没有什么快一点的方法呢 > > 启动时间比较久是指通过指定环境变量的方式启动多个进程比较繁琐，还是指import时间比较长。如果是觉得这种启动方式繁琐的话可以参考 https://docs.oneflow.org/master/parallelism/04_launch.html 使用launch模块。好的，我试试。前面这个是import太久了，现在还没完成。。

Dev add dalle2

> 我看这个截图里WORLD_SIZE是4，是不是没有启动其他的3个进程，此时在等待。刚试了一下，还真是这样（之前不太清楚要开4个shell窗口）。

Dev add dalle2

2、相关问题/进展记录 **进展** - 把模型从torch迁到oneflow还是比较方便的，其中flow存在一些函数不支持或不一致的情况（如 F.pad 不支持bool类型，0.7版本缺unbind/full_like等），稍微修改一下就行，这一块工作量不是很大。然后是添加(copy)了[GroupNorm](https://github.com/Oneflow-Inc/oneflow/blob/master/python/oneflow/nn/modules/normalization.py#L26), [Conv2D](https://github.com/Oneflow-Inc/oneflow/blob/v0.7.0/python/oneflow/nn/modules/conv.py#L233), [ConvTransposed2D](https://github.com/Oneflow-Inc/oneflow/blob/v0.7.0/python/oneflow/nn/modules/conv.py#L744)等网络层进行适配。 - 主要耗时是在寻找训练好的模型权重，主要来自[这里](https://huggingface.co/laion/DALLE2-PyTorch/tree/main)，我试了若干个，根据文本生成的图片都噪声特别大，或者说感觉像是随机生成的🤔，所以现在dalle2推理部分可以跑通，但是效果远不及预期,还需要多试试。 **其它问题** 服务器上有4块卡，但是我目前都是使用单机单卡来跑，原因有两点 1. 因为我在尽量利用libai.layers.xx等网络层，如Embedding, LayerNorm等，这些内置的参数plcament/sbp貌似都是一致(如layer_idx=0, sbp=broadcast); 另一方面，dalle2有太多参数了，目前不太想一个个去设置placement和sbp😂, 所以我基本都放在在第0块卡上。 2. 参考 > 启动时间比较久是指通过指定环境变量的方式启动多个进程比较繁琐，还是指import时间比较长。如果是觉得这种启动方式繁琐的话可以参考 https://docs.oneflow.org/master/parallelism/04_launch.html 使用launch模块。要使用多卡的话每次都需要起四个进程，感觉还是稍微有点麻烦😂（可能是我的使用方式有问题），所以就直接使用单卡了。 **后续计划** 1....

Dev add dalle2

`nsys profile --stats=true -o dalle2 python3 test.py ` 利用nsight system工具打开上述结果，发现ComputeVarUsingWelfordWrapper耗时占比非常大，这个ComputeVarUsingWelfordWrapper具体是指什么操作呢，另外如何避免/减少它的开销？ py: 3.8 oneflow: 0.8.0 ![image](https://user-images.githubusercontent.com/109642856/184850035-cb11942e-cbef-41fa-bae9-55b91f1c06d8.png)