jinyuan.miyagi comments

Results 5 comments of


                                            jinyuan.miyagi

楼主，这个错是什么情况？

我也遇到了同样的问题 Traceback (most recent call last): File "crf_djy_train.py", line 479, in model.train(train=train_data, dev=train_data) # use test_data as the dev_data to see overfitting phenomena File "crf_djy_train.py", line 303, in train self.run_one_epoch(sess,...

superset load_examples offline

i always encounter this problem

SparkStreaming如何有效的结合hdfs中的历史数据和接收的准实时数据进行聚合运算?

建议把HDFS中需要用到的短暂历史数据，cache到缓存里使用。缓存方案很多，类似Tair甚至Alluxio这种，速度会提高很多。

SparkStreaming如何有效的结合hdfs中的历史数据和接收的准实时数据进行聚合运算?

或者在HDFS的存储文件上下功夫，类似Parquet文件这种，压缩比和读写速度都很好。

ods有的公司说几乎不处理，有的说这一层要做第一次数据清洗，大家怎么看？

个人觉得ODS层的数据还是需要清洗并存入到数据仓库比较合适。如果不清洗，是ETL任务的计算资源和计算时间的浪费。除非是有特殊需要，规定要原汁原味的“原始数据”。