zhujiem

Results 15 issues of zhujiem

您好,我看到ENMF与LightGCN 和NBPO等方法,但我发现ENMF代码中recall指标的计算与其他几种方法没有对齐。我想确定您给定的ENMF结果是使用下面第一种还是第二种的结果? 第一种:ENMF中使用的是len(hit_items) / min(topk, len(ground_truth)) 第二种使用的是 len(hit_items) / len(ground_truth),如下 NBPO: https://github.com/Wenhui-Yu/NBPO/blob/master/Library.py#L14 LightGCN: https://github.com/kuandeng/LightGCN/blob/master/evaluator/python/evaluate_foldout.py#L20

The installation steps show how to install graphvite with cuda. Can I install it to my laptop for a demo? Thanks!

enhancement

I want to play with the code to reproduce the results and make some comparisons. I found NGCF repo lacks Yelp2018, which is available here. I wonder whether the train/test...

To update: DESTINE InterHAt EDCN MaskNet DLRM DSSM

数据集目录“Ali_Display_Ad_Click”中显示从以下路径直接获取预处理后的数据https://github.com/PaddlePaddle/PaddleRec/blob/master/datasets/Ali_Display_Ad_Click/run.sh#L3 ``` wget https://paddlerec.bj.bcebos.com/datasets/dmr/dataset_full.zip ``` 但该预处理数据的ID编码存在问题,具体表现为: 编码之后test set中仍包含未在train set中出现过的ID,可能原因为编码词典的统计不是只在train set中进行,导致test中出现的的新ID也在字典中。从而导致训练模型过程中,feature embedding的数量要比真实的要大,test阶段未训练到的ID embedding会以随机值的形式出现,会导致模型效果偏低。 以brand为例,统计brand_his和brand两个字段(这两个字段是统一编码),具体复现代码: ``` # 字段说明参看https://aistudio.baidu.com/aistudio/projectdetail/1805731 中“生成最终训练和测试数据集”标签页 train = pd.read_csv("work/train_sorted.csv", dtype=object) train.fillna("0", inplace=True) brand = train.iloc[:, 263].astype(int).values brand_set = set(list(brand))...

1. 请参照loghub对数据集的来源及适用场景有一些简短的介绍。另外可添加一个表格说明行数、大小、模板数等基本信息。 2. 加上citation信息 3. 要添加外链的话直接在你的表格里加一列代码列给出[Link]https://github.com/Siyuexi/Hue 4. 如果要把代码放进本目录,需要在Hue目录下有demo脚本及README说明。或者建议该目录只放数据及外链到你的code repo 5. 请尽量让一个repo看起来美观、清晰。 @PinjiaHe @Siyuexi

In the data folder, the scripts only produces all_data.csv, but the data has not been split to train/val/test sets. When running the models, the input requires train.csv, val.csv, and test.csv....