chunjun [Feature][chunjun-connector-hdfs] hdfs消费百亿数据时的速度不如spark

Search before asking

[X] I had searched in the issues and found no similar feature requirement.

Description

hdfs到hdfs的同步任务：数据源有300亿，300个文件，设定并行度为300，任务完成时间为3个小时左右，而spark运行相同的任务仅50多分钟。通过分析chunjun-core 与chunjun-connector-hdfs 代码猜测是因为metric指标（包括脏数据）处理影响了消费速度，通过摘除chunjun-core中metric指标监控（不包含numWrite），hdfs的同步速度快了三倍。具体的，将去除指标chunjun-core与chunjun-connector-hdfs合并到一起创建了新的hdfs连接器。

Use case

No response

Related issues

No response

Are you willing to submit a PR?

[X] Yes I am willing to submit a PR!

Code of Conduct

[X] I agree to follow this project's Code of Conduct

Jun 09 '23 03:06 david-gao1

本方案适用于所有连接器这里我暂称为高速模式目前需要解决问题是将metric指标、脏数据管理相关在chunjun-core中的代码进行解耦，可选择打开或关闭metric、脏数据这样用户可以根据自己的选择选择更加节省资源的且快方式处理任务，还是想要看到metric、以及脏数据管理模块对脏数据的管理

Jun 09 '23 03:06 david-gao1

对的，脏数据和指标耗费了太多性能，每接收或者发送一条数据都会去刷指标，应该还能更快一点，你可以调整sink端的nextCheckRows参数试试

Jun 09 '23 08:06 ll076110