Xiaoyu Xu
Xiaoyu Xu
When running with a global tensor, some rank has env variable `ONEFLOW_DEBUG_MODE=1`, and some rank has `ONEFLOW_DEBUG_MODE=0`, this check error will be raised. Just make all rank's `ONEFLOW_DEBUG_MODE` has the...
## 问题定位相关 ### 想看看显存具体怎么用掉的 打开下这个环境变量: ``` export ONEFLOW_DEBUG_MODE=1 ``` 在 nn.Graph 下,可以查看显存占用的 glog日志。 - 文件位置,在当前脚本执行目录下的 `log/local_rank_0/oneflow-[xxx]/oneflow.INFO` - 搜索 `allocate`,可以看到每个 rank 的显存占用统计数据; - 举例可以看到显存日志如下: ``` // rank 0,设备 0 需要分配的显存大小 Graph...
## 编译安装相关 最新的参见:https://github.com/Oneflow-Inc/oneflow/blob/master/docs/source/troubleshooting.md - 'libunwind.h' not found - You might add CMake argument `-DWITH_UNWIND=OFF`, or install libunwind in your system. - `CUDNN_STATUS_NOT_INITIALIZED` - You might see error message like these:...
> > repeat只会在variable后面吧,那就把它看成和variable一样的就行了 > > 还有可能在 source op 前面, tick 后面,repeat tick 给 source op (不过不参与 amp) > > 如果跟 Variable 一样,那 cast 就会在 repeat 后面,而不是 repeat 前面? 这个情况下, cast...
之前没碰到这种 mixin,有复现的最小 case 不
``` def test_mixin_module(test_case): class ModuleConfigMixin(object): def __init__(self): self._dtype = flow.float32 @property def dtype(self): return self._dtype @property def hello_from_module(self): print("hello_from_module") cfgm = ModuleConfigMixin() print("==>", cfgm.dtype) class MixinModule(flow.nn.Module, ModuleConfigMixin): def __init__(self): super().__init__()...
Fixed in: https://github.com/Oneflow-Inc/oneflow/pull/9351
# t5 dp 1000 gpu ## hidden layer 1 ### master 分支 OOM了 ### rank task graph 分支 待测试 ### hiddent layer 6
## dp200, hidden layer 6 ### base logical graph compile time elapsed: 27 seconds, Mem size RSS 511 MB, VM 24772 MB. complete job time elapsed: 12 seconds, Mem size...
> result 是 tuple 的子类 为了不轻易去解包用户的自定义类型,这里认定了不识别继承类型。 ``` def _is_raw_type(value, raw_type): return type(value) is raw_type ``` 可以搜下这个函数,特判下把内置的继承版本的 tuple 可以当做 tuple 被识别