data-juicer icon indicating copy to clipboard operation
data-juicer copied to clipboard

运行 python tools/process_data.py --config configs/demo/process.yaml 报错

Open wqdta opened this issue 9 months ago • 5 comments

Question

环境: windows10 anaconda 虚拟环境 python3.10.16

源码安装,初始化完成后执行 python tools/process_data.py --config configs/demo/process.yaml 报错:

Image

Additional 额外信息

No response

wqdta avatar Feb 28 '25 08:02 wqdta

嗨 @wqdta ,感谢你的关注与使用!

我们目前没有在Windows系统上进行过测试,因此Data-Juicer暂时不能保证在windows下完美运行。

根据报错截图,这是monitor在windows系统下获取GPU信息出错导致的,你可以试下在配置文件中添加一行open_monitor: false来停用monitor模块。

# Process config example for dataset

# global parameters
project_name: 'demo-process'
dataset_path: './demos/data/demo-dataset.jsonl'  # path to your dataset directory or file
np: 4  # number of subprocess to process your dataset

export_path: './outputs/demo-process/demo-processed.jsonl'

####### 添加这一行
open_monitor: false
####### 添加这一行

# process schedule
# a list of several process operators with their arguments
process:
  - language_id_score_filter:
      lang: 'zh'
      min_score: 0.8

如还有进一步问题,可随时交流~

HYLcool avatar Feb 28 '25 08:02 HYLcool

Image

看代码发现这里报错,不知跟这个是否有关?

wqdta avatar Feb 28 '25 08:02 wqdta

看代码发现这里报错,不知跟这个是否有关?

应该没关系

HYLcool avatar Feb 28 '25 09:02 HYLcool

看代码发现这里报错,不知跟这个是否有关?

应该没关系

我也是同样的windows,截图中部分需要改成jsonargparse._typehints,才可以正常运行。 你们的技术很棒!希望可以多多完善以适配windows😘

Image

ellie77ovo avatar Mar 04 '25 00:03 ellie77ovo

我也是同样的windows,截图中部分需要改成jsonargparse._typehints,才可以正常运行。 你们的技术很棒!希望可以多多完善以适配windows😘

感谢你提供的信息,我们又仔细check了一下,确实这里的import有些问题,我们会尽快修复~

HYLcool avatar Mar 04 '25 04:03 HYLcool

已在PR #604 中修复

HYLcool avatar May 06 '25 02:05 HYLcool