Ning Guo
Ning Guo
hdfs 上生成新文件,跟 sink 有关,我们这边的插件是 source; 跟 hdfs 的 sink 相关内容,你可以详细查看一下 flume 的官方文档
谢谢,相互学习
- 因为是实时数据收集,当判断系统时间已经到了`2015-06-20 00:00:00`时,基本确定`2015-06-19`的数据已经收集差不多了,但不一定收集完`2015-06-19`日的数据,因为系统还是有延迟的;因此,通过外部系统时间,判断`前一天`的数据是否收集完毕,行不通; - 判断`前一天`的数据,是否收集完毕,可以在数据上打上`时间戳`,因为同一个节点,断点续传等特性,当判断有`当前`时间戳的数据到达时,即可进行断定这个节点上,`前一天`数据收集完毕。
其实,你可以把你完整的场景再描述的更细节一些,可以讨论一下,是否有更好的解决方案。
完整的配置文件贴进来吧,看看你有没有定义 c1
你按照上面的配置文件,再重新运行一次 flume,然后把完整的错误日志发过来吧
修改一下配置文件: > agent.sources.spoolDirTailTile.channels=dir2kafkachannel 修改为: > agent.sources.spoolDirTailTile.channels = dir2kafkachannel
调整一下 source、sink、channel 之间对应关系的位置,把下面的配置,放置到配置文件末尾: > agent.sources.spoolDirTailTile.channels = dir2kafkachannel > agent.sinks.kafkasink.channel = dir2kafkachannel
估计你 spoolDirTailFile 的配置有错,我刚刚细看了一边启动日志:channel、sink都成功启动了,就是 spoolDirTailFile 这个source 启动时,说配置不对。
应该是兼容的,不少人都试过了