CCUG
CCUG copied to clipboard
关于Cassandra在生产环境中使用的相关问题
我关注你的微博好久了,对你的技术追求和功底非常赞赏,很高兴有机会向你请教。相关问题在前面的提问中已有涉及,但在细节上有所不同,所以想进一步明确一下。 1、我现在正在做一个物联网项目,采集各类设备的各种信息,这些信息有个特点,就是带一个时间戳信息,算是时序数据吧。这类数据是否适合用Cassandra存储,这类数据往往是有一个时间戳属性,同时带几十个甚至上百个业务属性,如采集某个设备某个时刻的电流,电压,工作负荷等等。设备的数量非常大,采集的间隔也非常密集,数据量非常大。 2、Cassandra是否可用在生产环境中?我记得早年有个公司好像是digg吧,将数据迁移到Cassandra上最终失败导致技术总监下课。我的意思是数据最终存储在Cassandra中,不再有其他存储方式保留一个副本。所存储的数据价值较高,都属于用户的数据资产,丢失的话后果极为严重。 3、前面你提到Cassandra不支持复杂分析查询,如果要做需要将数据导到spark或hadoop中,请问这方面是否有成熟的方案或开源项目参考。 非常感谢。
- 有关用Cassandra处理时序数据的问题,可以从这篇入门的文章开始: https://academy.datastax.com/demos/getting-started-time-series-data-modeling 用Cassandra还是要通过CQL建表的,表的字段数肯定支持上百个, 这里列出了CQL的一些限制: http://docs.datastax.com/en/cql/3.3/cql/cql_reference/refLimits.html
- 可以用于生产环境, 这里有使用Cassandra的公司列表: http://www.planetcassandra.org/companies/ 这里有各种真实案例的分享: http://www.planetcassandra.org/blog/ 为了安全,存储在Cassandra集群中的记录通常有三个副本,不需要再用其他数据库存副本(有特殊需求除外)
- Cassandra已经内置对Hadoop的支持了, 与Spark的集成通过spark-cassandra-connector来做: https://github.com/datastax/spark-cassandra-connector
我的意见仅供参考,建议先看看它的文档先: http://docs.datastax.com/en/
要做好充足的调研,目前中文资料真的不多,交流的地方也不多,所以如果不多花点时间学好Cassandra,用起来会不自在的,因为跟关系数据库差别比较大。
多谢。您的解答非常有价值。
江南白衣的这个微博好像说Cassandra问题较多,技术人员比较难掌控啊。http://weibo.com/1728555142/B16OVv7kP?type=comment#_rnd1442497133428
你自己试了么?公司有机器就找几台搭个集群自己玩玩先。 没有机器的话,你总该有自己的电脑吧,在你的电脑上也是可以搭个集群来跑的,除非你的机器太烂跑不起来,有个4G的内存足够跑了。
恩。我准备搭起来玩一下。谢谢。
需要对时序数据统计分析, 试试。