RebieKong

Results 10 comments of RebieKong

对于连续型变量分箱,如果是金融方面,建议用Weight Of Evidence

如果是离线的话,可以用单变量阈值选择,相当于单变量进行聚类,或者用Conditional Inference Tree递归也可以。 单变量递归主要解决连续变量离散化的问题

主要2点,埋点获取的数据质量是不是好,比如改上报的数据没上报肯定不行。第二,埋点能否足够覆盖需求范围,比如我们想知道用户点击某个按钮的时候,我们需要知道订单号,你必须有办法关联到这个点击事件的订单号,如果关联不到就需要让前端将订单号作为一个字段上报到埋点信息中。

将埋点信息关联到用户,和用户画像关联。你会发现很多实用场景是可以写作的,比如我这边不同的用户画像提供不同的产品布局和供给商品。点击量,访问时长就有很大的差异。这是一个数据驱动业务改变,反过来业务改变又记录数据的循环。

埋点以及数据收集只是基础,怎么用起来怎么分析才是关键,数据分析师一般做这个事情,好比可以看到在某一次的流失率,哪种终端的用户居多,是否是模拟器等等,一般数据分析师会自己发现,产品也可以告诉其自己想知道什么。

@somebody:既然app端和web端为同一业务服务,那么大部分数据肯定会是相同或者类似的,是否可以做个中间层,或者服务端接收到数据时候区分app以及web,然后分别处理,根据不同标志存在库中,将来也好分析共同点以及不同。

我们这边把数据分成事务型和日志型的分开处理,事务型的就是类似你这边的带update的操作,现在还没啥想头。。

@dantezhao 我们批量的用的是hbase,但是一路上坑很多

规范一定要做好,不然后期肯定维护不起,数据几乎白费。规范怎么定义看设计者的理解程度了,坑很多。后期维度对哪家公司来说都是头疼的事情,依赖于前面的规范。