nebula-importer icon indicating copy to clipboard operation
nebula-importer copied to clipboard

Optimization of importer execution logic and output information.

Open GangLiCN opened this issue 10 months ago • 1 comments

Is your feature request related to a problem? Please describe.

  1. Importer 导入速度比较慢,用户无法提前预知 导入需要花费的时间;
  2. Importer 执行过程中因为磁盘剩余空间不足,异常退出;
  3. Importer 目前不支持断点续传。

Describe the solution you'd like

  1. Import 执行过程的输出 建议增加 更有意义的性能指标, 现在控制台输出的只能看到: 当前已经导入了多少条记录和网络延时, 用户可能更希望看到的是 每秒导入了多少条记录 类似于tpmc这种 性能指标。

改进建议如下:

  1. Importer执行时,建议输出结果加个进度条显示 或者增加进度说明。例如: 一共多少个csv文件,当前处理的是哪个csv文件, 本csv文件一共需要导入多少条记录 现在导入了多少条记录 预计需要花费的时间。
  1. 导入测试数据集前对磁盘容量进行检测,如果剩余磁盘空间 小于 预估的容量, 则报错提示无法导入。并输出具体的错误信息。

  2. 预估容量的计算要考虑到底层存储的问题,例如底层存储使用了RocksDB的话, 会有写放大的问题出现,这样可能会占据更多的磁盘空间,因此在预估磁盘容量 时尽量按照上限计算;

  3. 断点续传: 例如有20个csv文件,已经完成了10个,在导入第11个文件的时候 因为磁盘空间不足导致导入中断,下次再运行导入程序能不能从第11个文件开始, 不用再重复导入已经完成的文件。

Describe alternatives you've considered

Additional context

GangLiCN avatar Sep 05 '23 07:09 GangLiCN