Yupeng Hou

Results 88 comments of Yupeng Hou

客气!很高兴看到能成功复现 这个确实比较棘手,我可能会建议把评分打印出来手动计算。因为 AUC 一般是 CTR 任务用的比较多,更偏向分类任务,在 RecBole 的组织中和 Ranking model 的指标计算不太适配。

在 RecBole 中 AUC 和 Ranking model 的指标计算不太适配,可能没办法直接用

您好! 1. 非法输出大概有 1-5% 左右,论文中报告的结果是当作这些非法输出没有预测成功(大概等于赋了 0 分)。当然也可以写一些简单规则,比如遇到非法输出就重新跑一下,估计能再提升几个点。 2. 这部分代码可以参考脚本 [[link]](https://github.com/RUCAIBox/LLMRank/blob/master/scripts/ob2-llms-suffer-from-position-bias-and-popularity-bias.md): **Ours:** ```bash cd llmrank/ # ML-1M python evaluate.py -m Rank # Games python evaluate.py -m Rank -d Games ``` **Ours...

嗯嗯我们也观察到了输出格式比较多、以及不一定完全属于候选集的情况。在我们当时的测试中,对于不同输出格式,只要能被 parser 解析,我们就认为是合法输出,并正常赋分;对于不一定完全属于候选集的情况,我们只解析了属于候选集的那部分。 之前提到的 1-5% 主要是针对第一个表格的实验来说的,即 ground-truth item 一定在候选集中的设定。这种设定下,没有生成 ground-truth 或者解析不了的大概有 1-5%。

感谢关注,和 `async_dispatch` 应该无关。我怀疑主要是两点:(1)本身 ChatGPT 给出的结果具有随机性;(2)ChatGPT API 背后 backbone model 也是一直在更新的,可能是目前的 OpenAI 提供的 model 和实验时不一致导致了结果差异。 建议可以试一下其他结果是不是普遍偏低,我稍后也会重跑一次看下目前的指标。

感谢指出这个 bug!我们刚刚进行了修正 5ec1154cb74cbf68ed5721212f1d7e79336c39c7 只要把这行删掉即可。

你好,采样数据这里需要加载预训练模型 checkpoint,我们提供的预训练 checkpoints 是在 2018 数据集上预训练的。 所以如果想应用到 Amazon Reviews 2023 数据集上,需要重新预训练几个基础模型,比如 `SASRec, GRU4Rec, BPR, Pop`。可以参考 https://github.com/RUCAIBox/LLMRank/blob/master/scripts/ob1-struggle-to-perceive-order-but-can-be-triggered.md#conventional-methods 下面被注释掉的那些指令,比如如果希望预训练 SASRec,则: ```bash python run_baseline.py -m SASRec -d Games mv xxx.pth pretrained_models/SASRec-Games.pth # 请把...

Thanks for pointing out this typo! We’ll fix it soon.

您好,请问您指的是类似于 `Scientific.test.inter` 这种文件里的 item index 吗? `Scientific.test.inter` 只是这个项目的数据集中间文件。RecBole 读入这个文件后,会把数据集文件中的 item index 看成字符串(这里是 index 从 0 开始的 string),然后在内部重新 remapping 到从 1 开始的 integer。您可以在 `UniSRecDataset` 中设断点查看 `self.field2id_token['item_id']` 的值来检查内部的 remapping 关系。

理论上这两种方式应该没什么区别,毕竟 SASRec 原始 repo 就是按照 2 的方式做的。 RecBole 现在实现的是 1 这种方式主要是为了通用性,比如 SASRec 可以通过 2 的方式加速训练,但是 GRU4Rec 就不行,为了方便,就统一使用 1 这种最通用的形式了。 在这样的背景下,RecBole 给出的数据就都是按照 1 的方式处理的,如果只在模型层面强制要求按照 2 的方式训练,可能会序列靠前位置的 item 被当作 objective 训练很多次,可能会有 bias...