Yilun Huang

Results 39 comments of Yilun Huang

Close this stale issue.

嗨 @ellie77ovo ,感谢你对 Data-Juicer 的关于与建议! 这类算子我们之前有考虑到,不过后来我们发现大部分情况下它们的清洗流程都是类似的(模式发现 -> 替换/清除),而其中发现的流程大部分情况下可以使用正则表达式实现,因此我们没有具体实现针对这些情况的每一类算子,而是提供了一个更为通用的算子`replace_content_mapper`,可以将符合指定模式的字符串替换为另外的指定的字符串,它接受两个参数: - `pattern`:需要发现并进行替换的字符串正则表达式模式 - `repl`:替换后的内容 这里举一个简单但是不是完全正确的例子,比如我们需要把所有1开头的11位数字,即潜在的手机号码,替换为11个星号"***********",那我们可以在配置文件中添加这个算子: ```yaml - process: - replace_content_mapper: pattern: '(1)[0-9]{10}' repl: '***********' ``` 你可以尝试一下这个算子看看能否满足你的需求~

> 好的,我会尝试一下!但很多时候没法列举出所有情况的正则表达式,例如提及工资数额的时候,我想如果有ai辅助理解会更精确抹除敏感信息。如果想要ai辅助理解,我该如何编写OP呢,你可以给我一些建议吗? AI辅助遮蔽PII的算子目前在纯文本上确实没有,我们之后会考虑引入这样的算子,不过由于其他任务的关系,可能暂时并不在我们的高优先级开发项中。 但目前有一些AI辅助从文本中提取重要信息的算子,我觉得也许你可以参考下,比如`calibrate_qa_mapper`,`extract_entity_attribute_mapper`以及其他一些相关的算子,它们是借助AI的能力从原始文本中提取一些更关键的信息,流程上与处理PII有一定的相似性。

嗨 @wqdta ,感谢你的关注与使用! 我们目前没有在Windows系统上进行过测试,因此Data-Juicer暂时不能保证在windows下完美运行。 根据报错截图,这是monitor在windows系统下获取GPU信息出错导致的,你可以试下在配置文件中添加一行`open_monitor: false`来停用monitor模块。 ```yaml # Process config example for dataset # global parameters project_name: 'demo-process' dataset_path: './demos/data/demo-dataset.jsonl' # path to your dataset directory or file np: 4...

> 看代码发现这里报错,不知跟这个是否有关? 应该没关系

> 我也是同样的windows,截图中部分需要改成jsonargparse._typehints,才可以正常运行。 你们的技术很棒!希望可以多多完善以适配windows😘 感谢你提供的信息,我们又仔细check了一下,确实这里的import有些问题,我们会尽快修复~

嗨 @ctgushiwei ,感谢你对 Data-Juicer 的关注与使用! 根据日志来看,应该是在下载语言分类器模型时因为网络等问题失败了,你可以根据红色的错误提示信息手动将模型下载到对应的目录 > Downloading model [lid.176.bin] error. Please retry later or download it into /root/.cache/data _juicer/models manually from https://dail-wlcb.oss-cn-wulanchabu.aliyuncs.com/data_juicer/models/lid.176.bin or https://dl.fbaipublicfiles.com/fasttext/supervised-models/lid.176.bin