咨询全量8p训练时遇到的with open(f"{experiment_dir}/args.json", "w") as f: : [Errno 13] Permission denied: '/args.json'问题
注意
在复现的问题中,通常有以下几种常见情况:
- 使用提供的配置复现模型库中的模型
- 在其他数据集(例如自定义数据集)上复现模型库中的模型
- 实现自定义模型,但利用的都是HunyuanDiT中实现的组件
- 使用自己实现的新模块实现自定义模型
针对不同情况需要做的事情如下:
- 对于情况 1 和 3,请按照以下部分的步骤操作,以便我们快速识别问题。
- 对于情况 2 和 4,请理解我们无法提供太多帮助,因为我们通常不了解全部代码,用户应对自己编写的代码负责。
- 针对情况 2 和 4 的一个建议是,用户应首先检查错误是否在自实现代码中或原始代码中。例如,用户可以首先确保相同的模型在支持的数据集上运行良好。如果您仍然需要帮助,请描述您所做的工作和遇到的问题,并按照以下部分的步骤尽可能清晰地描述,以便我们更好地帮助您。
检查清单
- 我已搜索相关问题,但无法获得预期的帮助。
- 最新版本中尚未修复此问题。
描述问题
清晰简洁地描述您遇到的问题以及您所做的工作。
重现步骤
- 您运行了什么命令或脚本?
PYTHONPATH=./ sh hydit/train.sh --index-file dataset/porcelain/jsons/porcelain.json
- 您运行的配置目录是什么?
配置目录的占位符
-
您是否对代码或配置进行了任何修改?您是否理解您所修改的内容? 无
-
您使用了什么数据集? 环境 data_demo.zip
-
请运行 python utils/collect_env.py 收集必要的环境信息并粘贴在此。 sys.platform: linux Python: 3.8.12 (default, Oct 12 2021, 13:49:34) [GCC 7.5.0] CUDA available: True MUSA available: False numpy_random_seed: 2147483648 GPU 0,1,2,3,4,5,6,7: NVIDIA A100-SXM4-80GB CUDA_HOME: /usr/local/cuda-12.1 NVCC: Cuda compilation tools, release 12.1, V12.1.66 GCC: gcc (Ubuntu 7.5.0-3ubuntu1~18.04) 7.5.0 PyTorch: 1.13.1 PyTorch compiling details: PyTorch built with:
- GCC 9.3
- C++ Version: 201402
- Intel(R) oneAPI Math Kernel Library Version 2022.1-Product Build 20220311 for Intel(R) 64 architecture applications
- Intel(R) MKL-DNN v2.6.0 (Git Hash 52b5f107dd9cf10910aaa19cb47f3abf9b349815)
- OpenMP 201511 (a.k.a. OpenMP 4.5)
- LAPACK is enabled (usually provided by MKL)
- NNPACK is enabled
- CPU capability usage: AVX2
- CUDA Runtime 11.7
- NVCC architecture flags: -gencode;arch=compute_37,code=sm_37;-gencode;arch=compute_50,code=sm_50;-gencode;arch=compute_60,code=sm_60;-gencode;arch=compute_61,code=sm_61;-gencode;arch=compute_70,code=sm_70;-gencode;arch=compute_75,code=sm_75;-gencode;arch=compute_80,code=sm_80;-gencode;arch=compute_86,code=sm_86;-gencode;arch=compute_37,code=compute_37
- CuDNN 8.5
- Magma 2.6.1
- Build settings: BLAS_INFO=mkl, BUILD_TYPE=Release, CUDA_VERSION=11.7, CUDNN_VERSION=8.5.0, CXX_COMPILER=/opt/rh/devtoolset-9/root/usr/bin/c++, CXX_FLAGS= -fabi-version=11 -Wno-deprecated -fvisibility-inlines-hidden -DUSE_PTHREADPOOL -fopenmp -DNDEBUG -DUSE_KINETO -DUSE_FBGEMM -DUSE_QNNPACK -DUSE_PYTORCH_QNNPACK -DUSE_XNNPACK -DSYMBOLICATE_MOBILE_DEBUG_HANDLE -DEDGE_PROFILER_USE_KINETO -O2 -fPIC -Wno-narrowing -Wall -Wextra -Werror=return-type -Werror=non-virtual-dtor -Wno-missing-field-initializers -Wno-type-limits -Wno-array-bounds -Wno-unknown-pragmas -Wunused-local-typedefs -Wno-unused-parameter -Wno-unused-function -Wno-unused-result -Wno-strict-overflow -Wno-strict-aliasing -Wno-error=deprecated-declarations -Wno-stringop-overflow -Wno-psabi -Wno-error=pedantic -Wno-error=redundant-decls -Wno-error=old-style-cast -fdiagnostics-color=always -faligned-new -Wno-unused-but-set-variable -Wno-maybe-uninitialized -fno-math-errno -fno-trapping-math -Werror=format -Werror=cast-function-type -Wno-stringop-overflow, LAPACK_INFO=mkl, PERF_WITH_AVX=1, PERF_WITH_AVX2=1, PERF_WITH_AVX512=1, TORCH_VERSION=1.13.1, USE_CUDA=ON, USE_CUDNN=ON, USE_EXCEPTION_PTR=1, USE_GFLAGS=OFF, USE_GLOG=OFF, USE_MKL=ON, USE_MKLDNN=ON, USE_MPI=OFF, USE_NCCL=ON, USE_NNPACK=ON, USE_OPENMP=ON, USE_ROCM=OFF,
TorchVision: 0.14.1+cu117
- 您可以添加其他有助于定位问题的信息,例如
- 您如何安装的 PyTorch [例如,pip, conda, source]
- 其他可能相关的环境变量 (例如
$PATH,$LD_LIBRARY_PATH,$PYTHONPATH等)
结果
如果适用,请在此粘贴相关结果,例如,您的预期结果和实际结果。
结果比较的占位符
Bug修复
如果您已经确定了原因,可以在此提供信息。如果您愿意创建 PR 进行修复,也请在此留言,我们将不胜感激!
一样的问题
解决了,它原来的代码把tools.py 这俩注释掉,并且剩下的往前缩减就可以了