dantezhao issues

Results 7 issues of


                                            dantezhao

数据更新频率比较高的需求适合用Hive吗，有什么比较好的解决方案？

QUESTION

BigData

对语言模型M0和M1做线性插值，M_=aM0+(1-a)M1。得到的模型更好吗

题主：看到解释说，因为信息熵是凸函数，所以M_的熵比M0和M1的熵的线性组合小，因此M_的不确定性少，是更好的模型。但是M0和M1模型都是通过最大熵算法求得的。。为什么插值模型是熵越小越好了。困惑。。各位大佬有什么想法吗

用户标签系统是怎么构建的？

现在有几点困惑： 1. 假设数据有10亿，维度有1k维，还会持续增加。 2. 比如说用户的标签，可能有几千维，那么底层该怎么存储？ 3. 假设用 Hive 的宽表来存，那么会有一个宽表要等所有的小表都算完才能拼起来的问题，而且还有频繁变更字段的问题 4. 如果在 Hive 中用竖表来存，查询有比较麻烦。

QUESTION

关于数据分层有什么好的建议？

QUESTION

BigData

ods有的公司说几乎不处理，有的说这一层要做第一次数据清洗，大家怎么看？

QUESTION

BigData

在设计数据表的时候，是一个宽表好，还是多个维度表好？

一个宽表解决需求，还是维度和订单表分开。这个你们是不是也有时候拆，有时候合。然后，自己也搞不清楚啥时候拆，啥时候合。都是被牵着鼻子走。

QUESTION

BigData

数据相关的个人主页推荐！

自荐一下自己的个人主页。格式：网站名-主题-链接比如：木东居士-数据仓库和数据挖掘-http://www.mdjs.info/