AlanHand

Results 1 issues of AlanHand

有一个需求是关于实时统计平台的用户数的, 以身份证号码作为统计条件,及一个身份证号码代表一个用户. 问题是平台中每一个来注册的用户可能身份证信息已经存在于平台的mysql数据库中,一个身份证可以有多个注册账号, 后台业务开发会将日志信息落成文件,我使用flume进行实时采集,然后进入kafka,再由SparkStreaing接收数据进行计算 , 在开始运行SparkStreaming时我会使用sqoop将mysql的初始数据同步到hdfs中,因此在SprakStreaming计算的时候需要加载hdfs的数据进行聚合运算, 问题如下: 1.SparkStreaming的数据接收时间间隔往往很小,hdfs数据大,不能每个batch时间都去加载hdfs的数据 2.cache到内存的数据不能在一个batch处理时间之后被回收 3.SparkStreaming接收的数据与hdfs数据shuffle时影响了性能 4.不能频繁的进行checkpoint

QUESTION
BigData