jinyuan.miyagi

Results 5 comments of jinyuan.miyagi

我也遇到了同样的问题 Traceback (most recent call last): File "crf_djy_train.py", line 479, in model.train(train=train_data, dev=train_data) # use test_data as the dev_data to see overfitting phenomena File "crf_djy_train.py", line 303, in train self.run_one_epoch(sess,...

i always encounter this problem

建议把HDFS中需要用到的短暂历史数据,cache到缓存里使用。缓存方案很多,类似Tair甚至Alluxio这种,速度会提高很多。

或者在HDFS的存储文件上下功夫,类似Parquet文件这种,压缩比和读写速度都很好。

个人觉得ODS层的数据还是需要清洗并存入到数据仓库比较合适。如果不清洗,是ETL任务的计算资源和计算时间的浪费。除非是有特殊需要,规定要原汁原味的“原始数据”。