jinyuan.miyagi
jinyuan.miyagi
我也遇到了同样的问题 Traceback (most recent call last): File "crf_djy_train.py", line 479, in model.train(train=train_data, dev=train_data) # use test_data as the dev_data to see overfitting phenomena File "crf_djy_train.py", line 303, in train self.run_one_epoch(sess,...
i always encounter this problem
建议把HDFS中需要用到的短暂历史数据,cache到缓存里使用。缓存方案很多,类似Tair甚至Alluxio这种,速度会提高很多。
或者在HDFS的存储文件上下功夫,类似Parquet文件这种,压缩比和读写速度都很好。
个人觉得ODS层的数据还是需要清洗并存入到数据仓库比较合适。如果不清洗,是ETL任务的计算资源和计算时间的浪费。除非是有特殊需要,规定要原汁原味的“原始数据”。