张维哲
张维哲
是浮点数的问题,tensorflow的sigmoid返回tensor默认float32的,sklearn的log_loss的eps默认是1e-15只能确保float64的精度不会出错。可以写一个方法吧eps改成1e-7。
我把criteo连续特征离散化(等频离散化成500份)后当成类别特征,所有的类别特征过滤出现少于50次的,dropout都为0.7,DNN为[400,400,400], auc为0.8097左右,然而单纯的DNN都到0.8105了。我自己实现的DeepFM也类似,不知道是什么原因
> > 我把criteo连续特征离散化(等频离散化成500份)后当成类别特征,所有的类别特征过滤出现少于50次的,dropout都为0.7,DNN为[400,400,400], auc为0.8097左右,然而单纯的DNN都到0.8105了。我自己实现的DeepFM也类似,不知道是什么原因 > > 请问你用的criteo是多少数据量,大概要多少内存? 30g吧差不多
> 是用的4千万多数据测试的还是? 是的
@blake-varden @seizeTheDayMin I find a solution for this question, you can return `bytearray(image) `as pyspark BinaryType in python2, or `bytes(image, encoding="raw_unicode_escape") ` in python3. The image is binary string like...