Yupeng Hou comments

Results 88 comments of


                                            Yupeng Hou

请问对于retailrocket数据集的预处理方式什么？

根据论文 Section 3 > We filter out sessions of length 1 and items appearing less than 5 times across all datasets, and split the sessions in each dataset into train/validation/test...

Request for reproduction of Star-GNN

Hi, thanks for your attention! Glad to hear the successful reproduction of CORE. 🥳 The implementation of SGNN can be found here [[link]](https://github.com/RUCAIBox/RecBole-GNN/blob/main/recbole_gnn/model/sequential_recommender/sgnnhn.py). The reproduction mainly follows the authors' original...

在Yelp数据集上运行时报错 AssertionError，在其它数据集上没有这样的错误。感谢回复！

您好！最近 RecBole 升级时可能对 Amazon 的云存储路径做了一些变动（因为补充了其他年份的 yelp 数据），我明天去修一下。您如果急用，可以先从百度网盘或者 Google Drive 上找到 yelp 数据集手动下载解压一下。

在Yelp数据集上运行时报错 AssertionError，在其它数据集上没有这样的错误。感谢回复！

您好，目前有一个临时的解决方案。您可以删掉 `dataset/yelp/` 这个文件夹，重新运行 `python main.py --dataset yelp`，等程序自然报错后，删掉 `dataset/yelp/yelp.tip` 这个文件，再重新运行应该就可以了。原因是 RecBole 现在的数据下载有点 bug，我们稍后会修复在主分支上，谢谢提出这个问题！

自定义数据集问题

您好，可以发一下 recbole 的版本以及运行的脚本吗

对比算法参数配置请教

您好，我们的 baseline 方法都是在每个数据集上单独调超参数的，具体而言我们使用了 RecBole 的调超参工具，但是当时好像没有记录最优参数和调参范围，具体可参考 https://github.com/RUCAIBox/NCL/issues/40 。

早停策略请教

您好，是的我们所有对比算法都是 10 epochs 早停。其实这是个好问题，严格意义讲 10 epochs 早停会对那些收敛速度更快的算法有利。但是在本文的实验中，我们观察到用 RecBole 实现的这些 baseline 方法基本 10 epochs 早停就差不多收敛了，为了控制成本我们选择对所有方法都采用 10 epochs 得早停。我们推测 50 epochs 可能会让超参调优的绝对结果产生些微差异，但是对整体的趋势和结论应该没影响。

早停策略请教

您好，根据 readme，如果您正常运行 `python main.py --dataset yelp` 就会自动下载数据集，且自动调用 `properties/` 下面的配置文件进行数据预处理。 yelp 下载的是没有年份后缀的那个 `yelp.zip`，对应的是 2020 版本的。Amazon book 也是同理，默认下载的是无年份后缀的 2014 版本。我刚刚运行了一下，统计和论文里是都可以对的上的。 ![image](https://github.com/RUCAIBox/NCL/assets/29252610/e787b576-2b5f-4f2c-8235-3081741e9087) ![image](https://github.com/RUCAIBox/NCL/assets/29252610/1d4a42cf-56d7-4364-9a1f-ea6c52b0fef4)

参数设置

> 你好，作者。我想问一下，我的聚类中心设置很大时，还有控制对比学习权重参数设置很大时，训练过很多论之后，faiss这个库就会报错，训练中出现nan。这是为什么？你好！我也不太确定原因，推测的话 faiss 确实不建议聚类中心特别多，印象里超过某个比例就会报 Warning；另外对比学习的权重很大时，可能 loss 的数值会比 BPR loss 的数值大很多倍，可能会有稳定性问题，建议可以逐个 epoch 打印一下几个 loss 的数值试试。

为什么我跑SGL的结果会比这篇论文高这么多(alibaba数据集)

请问这两个结果对应的运行脚本是？