data-juicer
data-juicer copied to clipboard
[Bug]: perplexity_filter 算子内存OOM
Before Reporting 报告之前
-
[X] I have pulled the latest code of main branch to run again and the bug still existed. 我已经拉取了主分支上最新的代码,重新运行之后,问题仍不能解决。
-
[X] I have read the README carefully and no error occurred during the installation process. (Otherwise, we recommend that you can ask a question using the Question template) 我已经仔细阅读了 README 上的操作指引,并且在安装过程中没有错误发生。(否则,我们建议您使用Question模板向我们进行提问)
Search before reporting 先搜索,再报告
- [X] I have searched the Data-Juicer issues and found no similar bugs. 我已经在 issue列表 中搜索但是没有发现类似的bug报告。
OS 系统
CentOs
Installation Method 安装方式
没有安装,直接源码git clone下来就跑
Data-Juicer Version Data-Juicer版本
git commit hash: 5e1f72017e857555049dfdf1065562d495fbad80
Python Version Python版本
Python 3.10.14
Describe the bug 描述这个bug
使用默认的configs/data_juicer_recipes/llava-pretrain-refine.yaml 文件来处理22M的图文数据。但是在跑perplexity_filter的时候遇到OOM error。900gb的内存都不够用。以下的截图是我上一次跑完崩溃以后,第二次跑的截图。第二次跑第一个操作就是perplexity_filter。但是感觉像一直在加载东西,没有看到处理文件的进度条,直到内存爆炸。1M以及以下的数据集数量,没有发现类似问题,可以顺利跑完。
以下是内存使用截图:
To Reproduce 如何复现
1, 没有修改任何代码
Configs 配置信息
No response
Logs 报错日志
export_9yue-proccessed-test-22m.jsonl_time_20241105173504.txt
Screenshots 截图
No response
Additional 额外信息
如果我的配置文件只有一个perplexity_filter 算子,则一切正常,可以处理22M的数据,内存消耗很正常。