CCUG icon indicating copy to clipboard operation
CCUG copied to clipboard

关于数据膨胀及高效分析解决方案

Open wangshengwangsheng opened this issue 10 years ago • 2 comments

请教两个问题: 1、根据hbase的实现原理和hbase实际应用经验得知,数据在hbase存储后会有5,6倍的膨胀,Cassandra是否也存在类似的问题,如何避免? 2、目前看到有Presto、Spark等以Cassandra为数据源的数据分析工具,请问这类软件中有哪些较为成熟,可实际用于生产环境的? 谢谢。

wangshengwangsheng avatar Oct 08 '15 03:10 wangshengwangsheng

  1. HBase 0.94里每个KeyValue会包含列族名和列名,而Cassandra 3.0不包含,所以存储后的数据理论上要小于HBase的,启用压缩后,存储到硬盘的数据更小。
  2. 与Spark配合得最好,见 https://github.com/datastax/spark-cassandra-connector 如果钱多,买官方的企业版最省事。

codefollower avatar Oct 08 '15 04:10 codefollower

多谢!

wangshengwangsheng avatar Oct 08 '15 06:10 wangshengwangsheng