data-group issues

【问题】 app数据采集可能会存在数据上报延时，倾向于采用数据的生成的时间还是服务器收到的时间？

3

【场景】行业原因，车开进地库了，就没有4G信号了，然后车主可能一周后再出车，此时数据才上来。导致app数据采集可能会存在数据上报延，数据会存在两个时间，数据生成的时间、服务器收到的时间。我们在建立ODS的时候，表的分区一般会采用天来做分区。【目前想到的解决方案】无论按服务器时间还是数据生成时间，因为dw是定期执行的，数据延迟到达的话无论如何都无法避免。此时只能针对特定业务来处理，和业务确认一个合理的最大延迟时间。超过最大延迟的丢弃。合理时间内的dw按数据生成时间来做，然后某些在dw上汇总统计操作再定期重跑。

detectivelcy

SparkStreaming如何有效的结合hdfs中的历史数据和接收的准实时数据进行聚合运算?

3

有一个需求是关于实时统计平台的用户数的, 以身份证号码作为统计条件,及一个身份证号码代表一个用户. 问题是平台中每一个来注册的用户可能身份证信息已经存在于平台的mysql数据库中,一个身份证可以有多个注册账号, 后台业务开发会将日志信息落成文件,我使用flume进行实时采集,然后进入kafka,再由SparkStreaing接收数据进行计算 , 在开始运行SparkStreaming时我会使用sqoop将mysql的初始数据同步到hdfs中,因此在SprakStreaming计算的时候需要加载hdfs的数据进行聚合运算, 问题如下: 1.SparkStreaming的数据接收时间间隔往往很小,hdfs数据大,不能每个batch时间都去加载hdfs的数据 2.cache到内存的数据不能在一个batch处理时间之后被回收 3.SparkStreaming接收的数据与hdfs数据shuffle时影响了性能 4.不能频繁的进行checkpoint

AlanHand

QUESTION

BigData

极少量数据变化的场景下，如何保证大数据平台数据与上游系统一致

7

目前在做数据抽取时遇到这样的问题：某些表全量数据量很大，少量历史数据由于业务原因会做修改，此时面临两难选择。全量同步时间太长，但能保证数据一致。增量同步效率高，但某些修改数据不能被同步下来。举个实际的例子：互金行业客户申请贷款后可能会发生提前还款，提前还款行为会导致后台系统将客户的还款行为计划和数据做修改，这是正常的业务场景，但毕竟少量发生（提前还款的人还是比较少的），这类数据的同步存在上述问题。想请问大家有什么建议

hongsong2021

QUESTION

BigData

数据更新频率比较高的需求适合用Hive吗，有什么比较好的解决方案？

7

dantezhao

QUESTION

BigData

[DISCUSS-3] 数据仓库中数据管理的讨论

2

1. 如何确定数据清洗后是否与源数据保持一致 2. 如何追溯数据仓库中的表的血缘关系 3. 如何管理数据仓库中的元数据

wxs85

DISCUSS

BigData

【问题】如何打通产品多端的埋点数据，如何把他们识别为同一个客户？这个有好的解决方案么？

【场景】 1、多端识别方面，比如顾客通过网页SEM下载了APP，然后在APP内购物，计算ROI的时候肯定要算到这个SEM里面的，所以需要识别客户。 2、同一个用户，如果通过SEM访问后，再注册登陆，下载APP，如何识别到是同一个用户并且归功于哪个SEM？ 3、SEM会有个有统计代码的链接，通过那个链接下载的就是那个渠道引流的用户，但是WAP和APP依旧不是同一个ID，通常是怎么处理的呢？

detectivelcy

【问题】怎么控制埋点数据传输流量？

【场景】我手机上用某一个app，这个app上我做了一套用户行为埋点。那么我肯定不希望我操作这个app的时候这些数据信息随时同步到这个app的后台，因为我要花流量费。而上传信息对我本人来说没有什么效益。但是这部分我不清楚会耗费多少流量。那用户万一清理手机了呢，是不是行为信息就没了？那如果不是实时上传，就是检测到wifi环境上传。

detectivelcy

【问题】对于提升埋点数据效率，有什么坑可以规避，有什么经验可以分享。

【背景】我们现在遇到的一个问题是。运营部门或者产品部门，上一个新功能或者新页面或者新活动的时候，需要很久才能看到这一块的数据，因为要上新页面/新功能/新活动，要联系客户端开发，数据分析，大数据开发，数据产品，协调埋点，数据统计，上报，展示等环节，周期时间比较长而且有时候还容易出错。【需求】目前就是想着能不能有一个快速的方法将这个问题解决掉，当一个新页面上去之后迅速就能看到这个页面的数据。【目前想到的方案】目前我能想到的一个解决方案就是：做一套埋点系统，将所有的埋点都以变量的形式放在一个大的查询当中，每天晚上去跑这个查询，将查询的结果展现在页面上或者报表上，实现自动化。

detectivelcy

对语言模型M0和M1做线性插值，M_=aM0+(1-a)M1。得到的模型更好吗

4

题主：看到解释说，因为信息熵是凸函数，所以M_的熵比M0和M1的熵的线性组合小，因此M_的不确定性少，是更好的模型。但是M0和M1模型都是通过最大熵算法求得的。。为什么插值模型是熵越小越好了。困惑。。各位大佬有什么想法吗

dantezhao

app与web在基础数据的要求有所不同，如果app和web共同为同一业务服务，这两者之间的数据如何进行汇总处理？

1

detectivelcy

QUESTION

BigData

data-group
data-group copied to clipboard

Metadata

【问题】 app数据采集可能会存在数据上报延时，倾向于采用数据的生成的时间还是服务器收到的时间？

SparkStreaming如何有效的结合hdfs中的历史数据和接收的准实时数据进行聚合运算?

极少量数据变化的场景下，如何保证大数据平台数据与上游系统一致

数据更新频率比较高的需求适合用Hive吗，有什么比较好的解决方案？

[DISCUSS-3] 数据仓库中数据管理的讨论

【问题】如何打通产品多端的埋点数据，如何把他们识别为同一个客户？这个有好的解决方案么？

【问题】怎么控制埋点数据传输流量？

【问题】对于提升埋点数据效率，有什么坑可以规避，有什么经验可以分享。

对语言模型M0和M1做线性插值，M_=aM0+(1-a)M1。得到的模型更好吗

app与web在基础数据的要求有所不同，如果app和web共同为同一业务服务，这两者之间的数据如何进行汇总处理？

← Metadata

Owner

Metadata

data-group data-group copied to clipboard

Metadata

← Metadata

Owner

Metadata

data-group
data-group copied to clipboard