DeepRec icon indicating copy to clipboard operation
DeepRec copied to clipboard

[ModelZoo] Support Co_Action Network

Open aiden-law-tian opened this issue 2 years ago • 14 comments

aiden-law-tian avatar Jul 28 '22 09:07 aiden-law-tian

CLA assistant check
All committers have signed the CLA.

CLAassistant avatar Jul 28 '22 09:07 CLAassistant

  • 请和DeepRec/modelzoo根目录下的模型代码保持一样的风格和参数接口
  • 请代码里只保留单个模型相关信息
  • 请移除无关代码,使文件尽量简洁
  • 在能够复用tensorflow接口的情况下,避免重写
  • 请复用modelzoo中的数据集,DIEN/DIN数据集处理方式与论文 repo里提供的方式有不同

Duyi-Wang avatar Aug 26 '22 01:08 Duyi-Wang

这是来自QQ邮箱的假期自动回复邮件。你的邮件我已经收到,我会尽快回复你的。

aiden-law-tian avatar Aug 26 '22 01:08 aiden-law-tian

  • 请和 DeepRec/modelzoo 根目录下的模型代码保持一样的风格和参数接口
  • 代码里只保留自己的模型相关信息
  • 请移除其他代码,使文件移除
  • 在能够复用张量流接口的情况下,避免灵活
  • 请复用modelzoo中的数据集,DIEN/DIN数据集处理方式与论文回购提供的方式有不同

dien和can的数据是一样的,只是处理方法不同,这两个模型生成的文件也不一样

aiden-law-tian avatar Sep 01 '22 10:09 aiden-law-tian

  • 请和 DeepRec/modelzoo 根目录下的模型代码保持一样的风格和参数接口
  • 代码里只保留自己的模型相关信息
  • 请移除其他代码,使文件移除
  • 在能够复用张量流接口的情况下,避免灵活
  • 请复用modelzoo中的数据集,DIEN/DIN数据集处理方式与论文回购提供的方式有不同

dien和can的数据是一样的,只是处理方法不同,这两个模型生成的文件也不一样

能否复用DIEN生成的数据文件? 虽然原始数据是一致的,但是处理数据需要花费时间。这部分开销对于测试并不友好,目前DeepRec提供的docker中,是直接提供DIEN处理后的数据文件。如果能够和DIN一样复用的话,能够有效减少测试时处理数据的时间以及减小docker image的大小。

Duyi-Wang avatar Sep 02 '22 05:09 Duyi-Wang

  • 请和 DeepRec/modelzoo 根目录下的模型代码保持一样的风格和参数接口
  • 代码里只保留自己的模型相关信息
  • 请移除其他代码,使文件移除
  • 在能够复用张量流接口的情况下,避免灵活
  • 请复用modelzoo中的数据集,DIEN/DIN数据集处理方式与论文回购提供的方式有不同

dien和can的数据是一样的,只是处理方法不同,这两个模型生成的文件也不一样

能否复用DIEN生成的数据文件? 虽然原始数据是一致的,但是处理数据需要花费时间。这部分开销对于测试并不友好,目前DeepRec提供的docker中,是直接提供DIEN处理后的数据文件。如果能够和DIN一样复用的话,能够有效减少测试时处理数据的时间以及减小docker image的大小。

DIEN生成的数据文件缺少了两个文件。其它的文件可以复用

aiden-law-tian avatar Sep 02 '22 05:09 aiden-law-tian

  • 请和 DeepRec/modelzoo 根目录下的模型代码保持一样的风格和参数接口
  • 代码里只保留自己的模型相关信息
  • 请移除其他代码,使文件移除
  • 在能够复用张量流接口的情况下,避免灵活
  • 请复用modelzoo中的数据集,DIEN/DIN数据集处理方式与论文回购提供的方式有不同

dien和can的数据是一样的,只是处理方法不同,这两个模型生成的文件也不一样

能否复用DIEN生成的数据文件? 虽然原始数据是一致的,但是处理数据需要花费时间。这部分开销对于测试并不友好,目前DeepRec提供的docker中,是直接提供DIEN处理后的数据文件。如果能够和DIN一样复用的话,能够有效减少测试时处理数据的时间以及减小docker image的大小。

DIEN生成的数据文件缺少了两个文件。其它的文件可以复用

  • 那能否在DIEN的处理脚本上添加这俩个文件的生成脚本?希望这几个模型复用的部分的生成方式和脚本是一致。
  • 缺少的文件是?
  • 使数据处理的部分,尽量从train.py中剥离。prepare_data()这部分生成负样本的代码还是想到耗时的,对与测试来说,是不必要的。DIEN就将这部分在处理数据时完成了。

Duyi-Wang avatar Sep 02 '22 06:09 Duyi-Wang

  • 请和 DeepRec/modelzoo 根目录下的模型代码保持一样的风格和参数接口
  • 代码里只保留自己的模型相关信息
  • 请移除其他代码,使文件移除
  • 在能够复用张量流接口的情况下,避免灵活
  • 请复用modelzoo中的数据集,DIEN/DIN数据集处理方式与论文回购提供的方式有不同

dien和can的数据是一样的,只是处理方法不同,这两个模型生成的文件也不一样

能否复用DIEN生成的数据文件? 虽然原始数据是一致的,但是处理数据需要花费时间。这部分开销对于测试并不友好,目前DeepRec提供的docker中,是直接提供DIEN处理后的数据文件。如果能够和DIN一样复用的话,能够有效减少测试时处理数据的时间以及减小docker image的大小。

DIEN生成的数据文件缺少了两个文件。其它的文件可以复用

  • 那能否在DIEN的处理脚本上添加这俩个文件的生成脚本?希望这几个模型复用的部分的生成方式和脚本是一致。
  • 缺少的文件是?
  • 使数据处理的部分,尽量从train.py中剥离。prepare_data()这部分生成负样本的代码还是想到耗时的,对与测试来说,是不必要的。DIEN就将这部分在处理数据时完成了。

缺少item_carte_voc.pkl和cate_carte_voc.pkl文件,我试一试加上这两个文件的生成脚本。 另外prepare_data这一部分确实是耗时,是不是处理数据生成一个新文件呢? 最后我想问的是,我其它三个模型的数据也要用DIEN的数据吗

aiden-law-tian avatar Sep 02 '22 06:09 aiden-law-tian

  • 请和 DeepRec/modelzoo 根目录下的模型代码保持一样的风格和参数接口
  • 代码里只保留自己的模型相关信息
  • 请移除其他代码,使文件移除
  • 在能够复用张量流接口的情况下,避免灵活
  • 请复用modelzoo中的数据集,DIEN/DIN数据集处理方式与论文回购提供的方式有不同

dien和can的数据是一样的,只是处理方法不同,这两个模型生成的文件也不一样

能否复用DIEN生成的数据文件? 虽然原始数据是一致的,但是处理数据需要花费时间。这部分开销对于测试并不友好,目前DeepRec提供的docker中,是直接提供DIEN处理后的数据文件。如果能够和DIN一样复用的话,能够有效减少测试时处理数据的时间以及减小docker image的大小。

DIEN生成的数据文件缺少了两个文件。其它的文件可以复用

  • 那能否在DIEN的处理脚本上添加这俩个文件的生成脚本?希望这几个模型复用的部分的生成方式和脚本是一致。
  • 缺少的文件是?
  • 使数据处理的部分,尽量从train.py中剥离。prepare_data()这部分生成负样本的代码还是想到耗时的,对与测试来说,是不必要的。DIEN就将这部分在处理数据时完成了。

缺少item_carte_voc.pkl和cate_carte_voc.pkl文件,我试一试加上这两个文件的生成脚本。 另外prepare_data这一部分确实是耗时,是不是处理数据生成一个新文件呢? 最后我想问的是,我其它三个模型的数据也要用DIEN的数据吗

尽量复用。 请和modelzoo里保持一致的代码风格,使用dataset和feature column接口读取和处理数据,文件直接使用txt or csv保存,不要使用pkl,这样还需要import包,尽可能减少依赖。

Duyi-Wang avatar Sep 02 '22 06:09 Duyi-Wang

  • 请和 DeepRec/modelzoo 根目录下的模型代码保持一样的风格和参数接口
  • 代码里只保留自己的模型相关信息
  • 请移除其他代码,使文件移除
  • 在能够复用张量流接口的情况下,避免灵活
  • 请复用modelzoo中的数据集,DIEN/DIN数据集处理方式与论文回购提供的方式有不同

dien和can的数据是一样的,只是处理方法不同,这两个模型生成的文件也不一样

能否复用DIEN生成的数据文件? 虽然原始数据是一致的,但是处理数据需要花费时间。这部分开销对于测试并不友好,目前DeepRec提供的docker中,是直接提供DIEN处理后的数据文件。如果能够和DIN一样复用的话,能够有效减少测试时处理数据的时间以及减小docker image的大小。

DIEN生成的数据文件缺少了两个文件。其它的文件可以复用

  • 那能否在DIEN的处理脚本上添加这俩个文件的生成脚本?希望这几个模型复用的部分的生成方式和脚本是一致。
  • 缺少的文件是?
  • 使数据处理的部分,尽量从train.py中剥离。prepare_data()这部分生成负样本的代码还是想到耗时的,对与测试来说,是不必要的。DIEN就将这部分在处理数据时完成了。

缺少item_carte_voc.pkl和cate_carte_voc.pkl文件,我试一试加上这两个文件的生成脚本。 另外prepare_data这一部分确实是耗时,是不是处理数据生成一个新文件呢? 最后我想问的是,我其它三个模型的数据也要用DIEN的数据吗

尽量复用。 请和modelzoo里保持一致的代码风格,使用dataset和feature column接口读取和处理数据,文件直接使用txt or csv保存,不要使用pkl,这样还需要import包,尽可能减少依赖。

这个prepare_data部分速度太慢了,可以使用多进程处理吗

aiden-law-tian avatar Sep 03 '22 15:09 aiden-law-tian

这是来自QQ邮箱的假期自动回复邮件。你的邮件我已经收到,我会尽快回复你的。

aiden-law-tian avatar Oct 19 '22 05:10 aiden-law-tian

请按照DeepRec最新代码中modelzoo里DIEN的代码,调整代码结构,主要以下几点: 1.代码文件夹名称改为小写 2.如果无特殊需求,直接复用DIEN中数据处理代码和数据集,prepare_data处理慢不是问题,我们在docker image中提供了数据集。 3.模型代码部分只使用一个train.py文件,代码结构参考DIEN的代码,主要顺序为 模型类定义,使用dataset结构构造输入,构造feature_column,train,eval,main函数,参数解析,分布式配置解析,入口。 4.按照DIEN中的代码,启用DeepRec对应的feature 5.与最新代码保持常规参数的一致,例如batch_size等参数以及DeepRec feature的功能开关 6.尽量减少其他包的import

Duyi-Wang avatar Oct 19 '22 08:10 Duyi-Wang

请按照DeepRec最新代码中动物园里DIEN的代码,调整代码结构,主要以下几点: 1.代码文件夹名称改为编写2.如果没有特殊需求,直接使用 DIEN中数据处理代码集,prep_data 3.模型代码部分只参考一个train.py 文件,代码结构DIEN的,主要使用顺序为模型类定义,数据集构造输入,构造feature_column 4.按照DIEN中的代码,DeepRec的代码,与 代码保持正常的参数一致,例如atch_size等以及DeepRec特性的功能开关 6.减少其他包的进口

是需要我按照DIEN的重新写一个CAN模型吗

aiden-law-tian avatar Oct 19 '22 08:10 aiden-law-tian

请按照DeepRec最新代码中动物园里DIEN的代码,调整代码结构,主要以下几点: 1.代码文件夹名称改为编写2.如果没有特殊需求,直接使用 DIEN中数据处理代码集,prep_data 3.模型代码部分只参考一个train.py 文件,代码结构DIEN的,主要使用顺序为模型类定义,数据集构造输入,构造feature_column 4.按照DIEN中的代码,DeepRec的代码,与 代码保持正常的参数一致,例如atch_size等以及DeepRec特性的功能开关 6.减少其他包的进口

是需要我按照DIEN的重新写一个CAN模型吗

是的,包括其他模型,因为要考虑到和现有测试框架的契合

Duyi-Wang avatar Oct 19 '22 08:10 Duyi-Wang