Yupeng Hou comments

Results 88 comments of


                                            Yupeng Hou

sasrec games复现结果不一致

客气！很高兴看到能成功复现这个确实比较棘手，我可能会建议把评分打印出来手动计算。因为 AUC 一般是 CTR 任务用的比较多，更偏向分类任务，在 RecBole 的组织中和 Ranking model 的指标计算不太适配。

sasrec games复现结果不一致

在 RecBole 中 AUC 和 Ranking model 的指标计算不太适配，可能没办法直接用

关于输出中的合法输出和非法输出以及boostrap对比实验图中的Ours指标是如何计算的？

您好！ 1. 非法输出大概有 1-5% 左右，论文中报告的结果是当作这些非法输出没有预测成功（大概等于赋了 0 分）。当然也可以写一些简单规则，比如遇到非法输出就重新跑一下，估计能再提升几个点。 2. 这部分代码可以参考脚本 [[link]](https://github.com/RUCAIBox/LLMRank/blob/master/scripts/ob2-llms-suffer-from-position-bias-and-popularity-bias.md): **Ours:** ```bash cd llmrank/ # ML-1M python evaluate.py -m Rank # Games python evaluate.py -m Rank -d Games ``` **Ours...

关于输出中的合法输出和非法输出以及boostrap对比实验图中的Ours指标是如何计算的？

嗯嗯我们也观察到了输出格式比较多、以及不一定完全属于候选集的情况。在我们当时的测试中，对于不同输出格式，只要能被 parser 解析，我们就认为是合法输出，并正常赋分；对于不一定完全属于候选集的情况，我们只解析了属于候选集的那部分。之前提到的 1-5% 主要是针对第一个表格的实验来说的，即 ground-truth item 一定在候选集中的设定。这种设定下，没有生成 ground-truth 或者解析不了的大概有 1-5%。

复现

感谢关注，和 `async_dispatch` 应该无关。我怀疑主要是两点：（1）本身 ChatGPT 给出的结果具有随机性；（2）ChatGPT API 背后 backbone model 也是一直在更新的，可能是目前的 OpenAI 提供的 model 和实验时不一致导致了结果差异。建议可以试一下其他结果是不是普遍偏低，我稍后也会重跑一次看下目前的指标。

数据预处理步骤错误

感谢指出这个 bug！我们刚刚进行了修正 5ec1154cb74cbf68ed5721212f1d7e79336c39c7 只要把这行删掉即可。

数据预处理步骤错误

你好，采样数据这里需要加载预训练模型 checkpoint，我们提供的预训练 checkpoints 是在 2018 数据集上预训练的。所以如果想应用到 Amazon Reviews 2023 数据集上，需要重新预训练几个基础模型，比如 `SASRec, GRU4Rec, BPR, Pop`。可以参考 https://github.com/RUCAIBox/LLMRank/blob/master/scripts/ob1-struggle-to-perceive-order-but-can-be-triggered.md#conventional-methods 下面被注释掉的那些指令，比如如果希望预训练 SASRec，则： ```bash python run_baseline.py -m SASRec -d Games mv xxx.pth pretrained_models/SASRec-Games.pth # 请把...

A typo in Chinese version

Thanks for pointing out this typo! We’ll fix it soon.

Item ID Index 的起始值问题

您好，请问您指的是类似于 `Scientific.test.inter` 这种文件里的 item index 吗？ `Scientific.test.inter` 只是这个项目的数据集中间文件。RecBole 读入这个文件后，会把数据集文件中的 item index 看成字符串（这里是 index 从 0 开始的 string），然后在内部重新 remapping 到从 1 开始的 integer。您可以在 `UniSRecDataset` 中设断点查看 `self.field2id_token['item_id']` 的值来检查内部的 remapping 关系。

Item ID Index 的起始值问题

理论上这两种方式应该没什么区别，毕竟 SASRec 原始 repo 就是按照 2 的方式做的。 RecBole 现在实现的是 1 这种方式主要是为了通用性，比如 SASRec 可以通过 2 的方式加速训练，但是 GRU4Rec 就不行，为了方便，就统一使用 1 这种最通用的形式了。在这样的背景下，RecBole 给出的数据就都是按照 1 的方式处理的，如果只在模型层面强制要求按照 2 的方式训练，可能会序列靠前位置的 item 被当作 objective 训练很多次，可能会有 bias...