HunyuanDiT 咨询全量8p训练时遇到的with open(f"{experiment_dir}/args.json", "w") as f: : [Errno 13] Permission denied: '/args.json'问题

注意

在复现的问题中，通常有以下几种常见情况：

使用提供的配置复现模型库中的模型
在其他数据集（例如自定义数据集）上复现模型库中的模型
实现自定义模型，但利用的都是HunyuanDiT中实现的组件
使用自己实现的新模块实现自定义模型

针对不同情况需要做的事情如下：

对于情况 1 和 3，请按照以下部分的步骤操作，以便我们快速识别问题。
对于情况 2 和 4，请理解我们无法提供太多帮助，因为我们通常不了解全部代码，用户应对自己编写的代码负责。
针对情况 2 和 4 的一个建议是，用户应首先检查错误是否在自实现代码中或原始代码中。例如，用户可以首先确保相同的模型在支持的数据集上运行良好。如果您仍然需要帮助，请描述您所做的工作和遇到的问题，并按照以下部分的步骤尽可能清晰地描述，以便我们更好地帮助您。

检查清单

我已搜索相关问题，但无法获得预期的帮助。
最新版本中尚未修复此问题。

描述问题

清晰简洁地描述您遇到的问题以及您所做的工作。

重现步骤

您运行了什么命令或脚本？

PYTHONPATH=./ sh hydit/train.sh --index-file dataset/porcelain/jsons/porcelain.json

配置目录的占位符

您是否对代码或配置进行了任何修改？您是否理解您所修改的内容？无
您使用了什么数据集？环境 data_demo.zip
请运行 python utils/collect_env.py 收集必要的环境信息并粘贴在此。 sys.platform: linux Python: 3.8.12 (default, Oct 12 2021, 13:49:34) [GCC 7.5.0] CUDA available: True MUSA available: False numpy_random_seed: 2147483648 GPU 0,1,2,3,4,5,6,7: NVIDIA A100-SXM4-80GB CUDA_HOME: /usr/local/cuda-12.1 NVCC: Cuda compilation tools, release 12.1, V12.1.66 GCC: gcc (Ubuntu 7.5.0-3ubuntu1~18.04) 7.5.0 PyTorch: 1.13.1 PyTorch compiling details: PyTorch built with:

GCC 9.3
C++ Version: 201402
Intel(R) oneAPI Math Kernel Library Version 2022.1-Product Build 20220311 for Intel(R) 64 architecture applications
Intel(R) MKL-DNN v2.6.0 (Git Hash 52b5f107dd9cf10910aaa19cb47f3abf9b349815)
OpenMP 201511 (a.k.a. OpenMP 4.5)
LAPACK is enabled (usually provided by MKL)
NNPACK is enabled
CPU capability usage: AVX2
CUDA Runtime 11.7
NVCC architecture flags: -gencode;arch=compute_37,code=sm_37;-gencode;arch=compute_50,code=sm_50;-gencode;arch=compute_60,code=sm_60;-gencode;arch=compute_61,code=sm_61;-gencode;arch=compute_70,code=sm_70;-gencode;arch=compute_75,code=sm_75;-gencode;arch=compute_80,code=sm_80;-gencode;arch=compute_86,code=sm_86;-gencode;arch=compute_37,code=compute_37
CuDNN 8.5
Magma 2.6.1
Build settings: BLAS_INFO=mkl, BUILD_TYPE=Release, CUDA_VERSION=11.7, CUDNN_VERSION=8.5.0, CXX_COMPILER=/opt/rh/devtoolset-9/root/usr/bin/c++, CXX_FLAGS= -fabi-version=11 -Wno-deprecated -fvisibility-inlines-hidden -DUSE_PTHREADPOOL -fopenmp -DNDEBUG -DUSE_KINETO -DUSE_FBGEMM -DUSE_QNNPACK -DUSE_PYTORCH_QNNPACK -DUSE_XNNPACK -DSYMBOLICATE_MOBILE_DEBUG_HANDLE -DEDGE_PROFILER_USE_KINETO -O2 -fPIC -Wno-narrowing -Wall -Wextra -Werror=return-type -Werror=non-virtual-dtor -Wno-missing-field-initializers -Wno-type-limits -Wno-array-bounds -Wno-unknown-pragmas -Wunused-local-typedefs -Wno-unused-parameter -Wno-unused-function -Wno-unused-result -Wno-strict-overflow -Wno-strict-aliasing -Wno-error=deprecated-declarations -Wno-stringop-overflow -Wno-psabi -Wno-error=pedantic -Wno-error=redundant-decls -Wno-error=old-style-cast -fdiagnostics-color=always -faligned-new -Wno-unused-but-set-variable -Wno-maybe-uninitialized -fno-math-errno -fno-trapping-math -Werror=format -Werror=cast-function-type -Wno-stringop-overflow, LAPACK_INFO=mkl, PERF_WITH_AVX=1, PERF_WITH_AVX2=1, PERF_WITH_AVX512=1, TORCH_VERSION=1.13.1, USE_CUDA=ON, USE_CUDNN=ON, USE_EXCEPTION_PTR=1, USE_GFLAGS=OFF, USE_GLOG=OFF, USE_MKL=ON, USE_MKLDNN=ON, USE_MPI=OFF, USE_NCCL=ON, USE_NNPACK=ON, USE_OPENMP=ON, USE_ROCM=OFF,

TorchVision: 0.14.1+cu117

您可以添加其他有助于定位问题的信息，例如
- 您如何安装的 PyTorch [例如，pip, conda, source]
- 其他可能相关的环境变量 (例如 $PATH, $LD_LIBRARY_PATH, $PYTHONPATH 等)

结果

如果适用，请在此粘贴相关结果，例如，您的预期结果和实际结果。

结果比较的占位符

Bug修复

如果您已经确定了原因，可以在此提供信息。如果您愿意创建 PR 进行修复，也请在此留言，我们将不胜感激！

Jan 16 '25 03:01 WongGawa

一样的问题

Mar 17 '25 08:03 Yuanlu1225

解决了，它原来的代码把tools.py 这俩注释掉，并且剩下的往前缩减就可以了

Mar 17 '25 09:03 Yuanlu1225