CCUG
CCUG copied to clipboard
关于数据膨胀及高效分析解决方案
请教两个问题: 1、根据hbase的实现原理和hbase实际应用经验得知,数据在hbase存储后会有5,6倍的膨胀,Cassandra是否也存在类似的问题,如何避免? 2、目前看到有Presto、Spark等以Cassandra为数据源的数据分析工具,请问这类软件中有哪些较为成熟,可实际用于生产环境的? 谢谢。
- HBase 0.94里每个KeyValue会包含列族名和列名,而Cassandra 3.0不包含,所以存储后的数据理论上要小于HBase的,启用压缩后,存储到硬盘的数据更小。
- 与Spark配合得最好,见 https://github.com/datastax/spark-cassandra-connector 如果钱多,买官方的企业版最省事。
多谢!