chunjun
chunjun copied to clipboard
[Feature][chunjun-connector-hdfs] hdfs消费百亿数据时的速度不如spark
Search before asking
- [X] I had searched in the issues and found no similar feature requirement.
Description
hdfs到hdfs的同步任务 :数据源有300亿,300个文件,设定并行度为300,任务完成时间为3个小时左右,而spark运行相同的任务仅50多分钟。通过分析chunjun-core 与chunjun-connector-hdfs 代码 猜测是因为metric指标(包括脏数据)处理影响了消费速度,通过摘除chunjun-core中metric指标监控(不包含numWrite),hdfs的同步速度快了三倍。具体的,将去除指标chunjun-core与chunjun-connector-hdfs合并到一起创建了新的hdfs连接器。
Use case
No response
Related issues
No response
Are you willing to submit a PR?
- [X] Yes I am willing to submit a PR!
Code of Conduct
- [X] I agree to follow this project's Code of Conduct
本方案适用于所有连接器 这里我暂称为高速模式 目前需要解决问题是将metric指标、脏数据管理 相关在chunjun-core中的代码进行解耦,可选择打开或关闭metric、脏数据 这样用户可以根据自己的选择 选择更加节省资源的且快方式处理任务,还是想要看到metric、以及脏数据管理模块对脏数据的管理
对的 ,脏数据和指标耗费了太多性能,每接收或者发送一条数据都会去刷指标,应该还能更快一点,你可以调整sink端的nextCheckRows参数试试