chunjun icon indicating copy to clipboard operation
chunjun copied to clipboard

[Feature][chunjun-connector-hdfs] hdfs消费百亿数据时的速度不如spark

Open david-gao1 opened this issue 2 years ago • 2 comments

Search before asking

  • [X] I had searched in the issues and found no similar feature requirement.

Description

hdfs到hdfs的同步任务 :数据源有300亿,300个文件,设定并行度为300,任务完成时间为3个小时左右,而spark运行相同的任务仅50多分钟。通过分析chunjun-core 与chunjun-connector-hdfs 代码 猜测是因为metric指标(包括脏数据)处理影响了消费速度,通过摘除chunjun-core中metric指标监控(不包含numWrite),hdfs的同步速度快了三倍。具体的,将去除指标chunjun-core与chunjun-connector-hdfs合并到一起创建了新的hdfs连接器。 image

Use case

No response

Related issues

No response

Are you willing to submit a PR?

  • [X] Yes I am willing to submit a PR!

Code of Conduct

david-gao1 avatar Jun 09 '23 03:06 david-gao1

本方案适用于所有连接器 这里我暂称为高速模式 目前需要解决问题是将metric指标、脏数据管理 相关在chunjun-core中的代码进行解耦,可选择打开或关闭metric、脏数据 这样用户可以根据自己的选择 选择更加节省资源的且快方式处理任务,还是想要看到metric、以及脏数据管理模块对脏数据的管理

david-gao1 avatar Jun 09 '23 03:06 david-gao1

对的 ,脏数据和指标耗费了太多性能,每接收或者发送一条数据都会去刷指标,应该还能更快一点,你可以调整sink端的nextCheckRows参数试试

ll076110 avatar Jun 09 '23 08:06 ll076110