moonbox icon indicating copy to clipboard operation
moonbox copied to clipboard

一个大表在oracle,一个大表在mysql,2个表需要join的场景,全部拉回到spark对数据库的压力太大了。 这种场景是不是不适合moonbox?

Open mixhuhu opened this issue 5 years ago • 1 comments

mixhuhu avatar Aug 14 '19 00:08 mixhuhu

首先,如果除了join之外还有其他可以下推算子,moonbox是可以支持算子下推的,比如先聚合或过滤后再join,这时moonbox不会全表数据拉回到spark;其次,如果真是需求就是两个大表直接join,那全部拉回spark去做join是不可避免的,如果担心是在数据库压力这块(主要是IO),moonbox可以限制数据库拉回到spark的并行度

fumiwork avatar Aug 14 '19 05:08 fumiwork