dantezhao
dantezhao
题主:看到解释说,因为信息熵是凸函数,所以M_的熵比M0和M1的熵的线性组合小,因此M_的不确定性少,是更好的模型。但是M0和M1模型都是通过最大熵算法求得的。。为什么插值模型是熵越小越好了。 困惑。。各位大佬有什么想法吗
现在有几点困惑: 1. 假设数据有10亿,维度有1k维,还会持续增加。 2. 比如说用户的标签,可能有几千维,那么底层该怎么存储? 3. 假设用 Hive 的宽表来存,那么会有一个宽表要等所有的小表都算完才能拼起来的问题,而且还有频繁变更字段的问题 4. 如果在 Hive 中用竖表来存,查询有比较麻烦。
一个宽表解决需求,还是维度和订单表分开。这个你们是不是也有时候拆,有时候合。然后,自己也搞不清楚啥时候拆,啥时候合。都是被牵着鼻子走。
自荐一下自己的个人主页。格式:网站名-主题-链接 比如:木东居士-数据仓库和数据挖掘-http://www.mdjs.info/