649435349

Results 9 comments of 649435349

HI, for the answer 2, does it mean that the item list of one user is sorted by the time? In another word, the latter one is listened by the...

> Hi, > Thanks for your interest. There are two reasons: > > 1. KPRN belongs to the path-based paradigm and thus requires to extract qualified paths, which needs labor-intensive...

> Hi, > > 1. Actually, the distinctions between KGAT and KPRN are from the differences between graph neural network (GNN)-based and path-based techniques. Hence, KPRN is not a part...

> 嗯,感谢您的回复,我增大了数据集,使用了25%的ad数据,结果能达到0.6+了。 > > 但是,我仍然有一个问题,就是在Session Interest Interacting Layer,您的论文中是用了Bi-LSTM来做的,我觉得换成其他模块,比如self-attention应该也能达到同样的效果吧,但是好像结果并不理想,在训练过程中loss持续升高,这让我很费解。 > 或许您能给我一些建议来解决这个问题吗? 不好意思来晚了。。 我自己实验的时候换成 self-attention 会略跌一点,而且每个模块(Bi-LSTM or CNN or self-attention)应该有自己的特殊作用,主要看你想做什么。我们想捕捉用户的 session interest 的渐进和演化,那似乎用 Bi-LSTM 会更贴切这个目标;想捕捉用户 session interest 之间的关系,那 self-attention 更合适。当然我是感觉前者更合适哈。

> > > 嗯,感谢您的回复,我增大了数据集,使用了25%的ad数据,结果能达到0.6+了。 > > > 但是,我仍然有一个问题,就是在Session Interest Interacting Layer,您的论文中是用了Bi-LSTM来做的,我觉得换成其他模块,比如self-attention应该也能达到同样的效果吧,但是好像结果并不理想,在训练过程中loss持续升高,这让我很费解。 > > > 或许您能给我一些建议来解决这个问题吗? > > > > > > 不好意思来晚了。。 > > 我自己实验的时候换成 self-attention 会略跌一点,而且每个模块(Bi-LSTM or CNN or...

什么叫对线上数据进行预测?如果是线上服务的话,这个感觉是工业问题吧,每个公司都会有成熟的在线 inference 系统的,具体得问问你们的工程实现方啊。在线预测的时候,输入的组织方式和离线的是一致的。

额,你好像对 CTR 问题不是很理解,你可以看看我引用的 DIN / YoutubeNet 那篇论文,里面有工程介绍。

Sorry for late A 1: Qk指的就是第k个session,这里的h是self-attention的multi-head的分法 A 2: 是一样的,我们希望bias encoding去分别不同session,所有session的 self-attention参数都是一样的。不过我们做过实验,其实影响不是特别大

> @649435349 Thanks for your clarification. > So I guess the question here is: > I agree that the self-attention parameters are the same across different sessions. But the problem...