AlanHand

Results 6 comments of AlanHand

问题可以在详细点吗?比如说像点击流这样的实时数据更新.那么就得实时收集数据,实时计算数据,实时查询显示数据,这三者需要用到不同的技术才能处理

结合我司的一些经验来说说哈,我司会将数据用于各种各样不同主题和纬度的报表,也会将数据用于数据挖掘做模型的 , 因此数据分成肯定是必要的, 针对报表类的数据根据报表的不同反向划分出不同的纬度表,这种方式其实就是将mysql业务库的数据经过sql语句之后重新生成一张或者多张维度表,在这之中根据经验会抽取出一个经常用的字段作为公共字段放入公共层数据中,一些经常需要用到的度量值也会抽取到度量表中,那么一些非开发人员来看数据的时候只要在页面上简单写几个sql语句就可以统计出数据来,比如月销量,周销量,日销量这些 若是机器学习模型的同学要数据的话,我们就只需要从维度表,度量表,事实表中抽取数据做成大宽表给他们了,由于模型做的比较少,对于大宽表的经验比较少,暂时只能来一个模型数据的需求,单独写sql语句去抽取,这方法有点笨了a

拉链表肯定是个不错的选择啦,不过楼主你说的hive的LLAP merge特性倒是个idea,有朋友分享下嘛

> 这个问题和我们的风控规则引擎和风控模型有点像,我们的处理方式是在既有的分控规则引擎上跑出结果 , 然后在加上风控模型再一次跑出结果,然后统计这两个结果的数据进行比较,若是结果差异不大 , > 说明这个模型可有可无,若是结果差异大我们在对有差异的数据进行人工评判,人工评判出来的结果在与之前的数据做比较,然后在调整 . 这就有点像做机器学习模型的参数调优一样.

楼上的cathy,不好意思我可能要反驳一下下哈,sklearn我在去年年底的时候初次使用好像是可以将中文进行哑编码的