linc09

Results 1 comments of linc09

恩,比如现在有一个需求,需要利用服务器的日志统计一个网站一天的UV、PV等数据,每天都计算前一整天的数据。如果用flume拉取日志,需要等到前一天的日志全部拉取完毕了,才能开始接下来的计算,那这时候就有一个问题,怎么样才能知道前一天的日志已经全部拉取完毕了,我觉得用“当前”event的时间戳来判断不是很保险,因为是不是可能今天已经有event传过来了,昨天的event还没有全部传输成功的情况。 使用flume之前我们是让日志做小时级分割,然后etl工具判断每小时所有的event是否已经在接受端都接收完毕了,来判断的。