DHAN
DHAN copied to clipboard
DHAN code for SIGIR 2020
你好,我阅读了数据处理程序。我发现在Amazon数据集中,category_list是一个多重列表,如一个item可能有以下层次结构, [ ['Clothing, Shoes & Jewelry', 'Citizen’], ['Clothing, Shoes & Jewelry', 'Men', 'Watches', 'Wrist Watches’] ]。程序中采用X[-1][-1]来提取这个item的category,也就是例子中的多重层次列表中的最后一个列表的最后一项'Wrist Watches’。请问采取这样的策略处理数据,是基于什么考虑的?还是因为Amazon数据集category_list太杂揉了,采取这样的处理方式? 我试图利用Amazon数据集来提取一个树型的目录结构,但是一直不成功。希望您回答上面的疑问?
cluster数量(比如category)很多的情况下会不会对耗时造成影响? 另外cluster发生变化(比如新增category)的时候如何处理呢?
请教一下为啥dhan的auc比din的auc还差? DHAN-DIN:  DIN: 