data-juicer icon indicating copy to clipboard operation
data-juicer copied to clipboard

[Bug]: perplexity_filter 算子内存OOM

Open weiaicunzai opened this issue 1 year ago • 0 comments

Before Reporting 报告之前

  • [X] I have pulled the latest code of main branch to run again and the bug still existed. 我已经拉取了主分支上最新的代码,重新运行之后,问题仍不能解决。

  • [X] I have read the README carefully and no error occurred during the installation process. (Otherwise, we recommend that you can ask a question using the Question template) 我已经仔细阅读了 README 上的操作指引,并且在安装过程中没有错误发生。(否则,我们建议您使用Question模板向我们进行提问)

Search before reporting 先搜索,再报告

  • [X] I have searched the Data-Juicer issues and found no similar bugs. 我已经在 issue列表 中搜索但是没有发现类似的bug报告。

OS 系统

CentOs

Installation Method 安装方式

没有安装,直接源码git clone下来就跑

Data-Juicer Version Data-Juicer版本

git commit hash: 5e1f72017e857555049dfdf1065562d495fbad80

Python Version Python版本

Python 3.10.14

Describe the bug 描述这个bug

使用默认的configs/data_juicer_recipes/llava-pretrain-refine.yaml 文件来处理22M的图文数据。但是在跑perplexity_filter的时候遇到OOM error。900gb的内存都不够用。以下的截图是我上一次跑完崩溃以后,第二次跑的截图。第二次跑第一个操作就是perplexity_filter。但是感觉像一直在加载东西,没有看到处理文件的进度条,直到内存爆炸。1M以及以下的数据集数量,没有发现类似问题,可以顺利跑完。

以下是内存使用截图:

image

To Reproduce 如何复现

1, 没有修改任何代码

Configs 配置信息

No response

Logs 报错日志

export_9yue-proccessed-test-22m.jsonl_time_20241105173504.txt

Screenshots 截图

No response

Additional 额外信息

如果我的配置文件只有一个perplexity_filter 算子,则一切正常,可以处理22M的数据,内存消耗很正常。

weiaicunzai avatar Nov 05 '24 09:11 weiaicunzai