data-juicer
data-juicer copied to clipboard
运行 python tools/process_data.py --config configs/demo/process.yaml 报错
Question
环境: windows10 anaconda 虚拟环境 python3.10.16
源码安装,初始化完成后执行 python tools/process_data.py --config configs/demo/process.yaml 报错:
Additional 额外信息
No response
嗨 @wqdta ,感谢你的关注与使用!
我们目前没有在Windows系统上进行过测试,因此Data-Juicer暂时不能保证在windows下完美运行。
根据报错截图,这是monitor在windows系统下获取GPU信息出错导致的,你可以试下在配置文件中添加一行open_monitor: false来停用monitor模块。
# Process config example for dataset
# global parameters
project_name: 'demo-process'
dataset_path: './demos/data/demo-dataset.jsonl' # path to your dataset directory or file
np: 4 # number of subprocess to process your dataset
export_path: './outputs/demo-process/demo-processed.jsonl'
####### 添加这一行
open_monitor: false
####### 添加这一行
# process schedule
# a list of several process operators with their arguments
process:
- language_id_score_filter:
lang: 'zh'
min_score: 0.8
如还有进一步问题,可随时交流~
看代码发现这里报错,不知跟这个是否有关?
看代码发现这里报错,不知跟这个是否有关?
应该没关系
看代码发现这里报错,不知跟这个是否有关?
应该没关系
我也是同样的windows,截图中部分需要改成jsonargparse._typehints,才可以正常运行。 你们的技术很棒!希望可以多多完善以适配windows😘
我也是同样的windows,截图中部分需要改成jsonargparse._typehints,才可以正常运行。 你们的技术很棒!希望可以多多完善以适配windows😘
感谢你提供的信息,我们又仔细check了一下,确实这里的import有些问题,我们会尽快修复~
已在PR #604 中修复