CCUG 关于Cassandra在生产环境中使用的相关问题

我关注你的微博好久了，对你的技术追求和功底非常赞赏，很高兴有机会向你请教。相关问题在前面的提问中已有涉及，但在细节上有所不同，所以想进一步明确一下。 1、我现在正在做一个物联网项目，采集各类设备的各种信息，这些信息有个特点，就是带一个时间戳信息，算是时序数据吧。这类数据是否适合用Cassandra存储，这类数据往往是有一个时间戳属性，同时带几十个甚至上百个业务属性，如采集某个设备某个时刻的电流，电压，工作负荷等等。设备的数量非常大，采集的间隔也非常密集，数据量非常大。 2、Cassandra是否可用在生产环境中？我记得早年有个公司好像是digg吧，将数据迁移到Cassandra上最终失败导致技术总监下课。我的意思是数据最终存储在Cassandra中，不再有其他存储方式保留一个副本。所存储的数据价值较高，都属于用户的数据资产，丢失的话后果极为严重。 3、前面你提到Cassandra不支持复杂分析查询，如果要做需要将数据导到spark或hadoop中，请问这方面是否有成熟的方案或开源项目参考。非常感谢。

Sep 16 '15 14:09 wangshengwangsheng

有关用Cassandra处理时序数据的问题，可以从这篇入门的文章开始: https://academy.datastax.com/demos/getting-started-time-series-data-modeling 用Cassandra还是要通过CQL建表的，表的字段数肯定支持上百个，这里列出了CQL的一些限制: http://docs.datastax.com/en/cql/3.3/cql/cql_reference/refLimits.html
可以用于生产环境，这里有使用Cassandra的公司列表: http://www.planetcassandra.org/companies/ 这里有各种真实案例的分享: http://www.planetcassandra.org/blog/ 为了安全，存储在Cassandra集群中的记录通常有三个副本，不需要再用其他数据库存副本（有特殊需求除外）
Cassandra已经内置对Hadoop的支持了，与Spark的集成通过spark-cassandra-connector来做: https://github.com/datastax/spark-cassandra-connector

我的意见仅供参考，建议先看看它的文档先: http://docs.datastax.com/en/

要做好充足的调研，目前中文资料真的不多，交流的地方也不多，所以如果不多花点时间学好Cassandra，用起来会不自在的，因为跟关系数据库差别比较大。

Sep 16 '15 15:09 codefollower

多谢。您的解答非常有价值。

Sep 17 '15 00:09 wangshengwangsheng

江南白衣的这个微博好像说Cassandra问题较多，技术人员比较难掌控啊。http://weibo.com/1728555142/B16OVv7kP?type=comment#_rnd1442497133428

Sep 17 '15 13:09 wangshengwangsheng

你自己试了么？公司有机器就找几台搭个集群自己玩玩先。没有机器的话，你总该有自己的电脑吧，在你的电脑上也是可以搭个集群来跑的，除非你的机器太烂跑不起来，有个4G的内存足够跑了。

Sep 17 '15 14:09 codefollower

恩。我准备搭起来玩一下。谢谢。

Sep 17 '15 14:09 wangshengwangsheng

需要对时序数据统计分析，试试。

Sep 24 '15 01:09 fivejjs

CCUG CCUG copied to clipboard

关于Cassandra在生产环境中使用的相关问题

CCUG
CCUG copied to clipboard