PaddleNLP icon indicating copy to clipboard operation
PaddleNLP copied to clipboard

[NEW MODEL] 增加InfoXLM模型

Open jiamingkong opened this issue 2 years ago • 15 comments

PR types

New features

PR changes

Models

Description

【飞桨论文复现挑战赛(第六期)】112号论文提交

使用飞桨PaddlePaddle-源于产业实践的开源深度学习平台 深度学习框架复现InfoXLM模型。 挑战赛的git地址为:https://github.com/jiamingkong/infoxlm_paddle。

详细说明(包括权重转换、使用、实验验证)在model_checkpoints/README.md中。

jiamingkong avatar Jun 17 '22 09:06 jiamingkong

CLA assistant check
All committers have signed the CLA.

CLAassistant avatar Jun 17 '22 09:06 CLAassistant

请问下datasets下的文件可否使用像HF datasets中已有的呢,这些内容会有些多,可能导致repo会有些过大

guoshengCS avatar Jul 04 '22 01:07 guoshengCS

@jiamingkong 感谢贡献!麻烦签署下CLA. README.md可以统一到examples下面,同时去掉model_checkpoints目录,转好的模型权重留言个链接即可,cross_lingual_sentence_retrieval是否可以移动到text_matching下面。

gongel avatar Jul 08 '22 06:07 gongel

@jiamingkong 感谢贡献!麻烦签署下CLA. README.md可以统一到examples下面,同时去掉model_checkpoints目录,转好的模型权重留言个链接即可,cross_lingual_sentence_retrieval是否可以移动到text_matching下面。

@gongel 您好,按照上述反馈,我们完成了如下修改:

  1. 签署CLA
  2. README移动到了examples/text_matching/cross_lingual_sentence_retrieval下面
  3. 转换好的权重下载地址在上述README.md也保存了一份:

权重下载地址为:

链接:https://pan.baidu.com/s/1_lkvBOBOtdTGvoesWOicQg?pwd=ixlm 提取码:ixlm

@guoshengCS 您好,cross_lingual_sentence_retrieval任务中使用的数据集在当前的datasets并没有开源实现,所以我们从facebook LASER的git里面把原始文本给保存了下来;在最新的提交中,我们已经去除了这个数据集合以减少git大小,同时附带了网盘下载地址,该地址在上述的README.md 中也有提到:

Taboeta下载地址:

链接:https://pan.baidu.com/s/1bLd_GgoBRf6z4olC9dsVyg?pwd=clsr 提取码:clsr

jiamingkong avatar Jul 09 '22 01:07 jiamingkong

好收到,感谢更新。README.md只保留examples下面一份即可,另外log.txt可以去掉,sentence_retrieval_results.csv也去掉。另外数据集是否可以考虑弄成datasets并托管在百度bcebos上面,可参考dureader_robust

gongel avatar Jul 12 '22 07:07 gongel

@gongel 您好,按照您的review,我已经修改了代码,具体修改地方为:

  • 删除了不需要的debug语句
  • Tokenizer中关于Fnet的字样删除了,像Fnet一样继承了AlbertTokenizer
  • 增加了use_cache, cache的传参位置,但是具体的实现上还没有改变,我还需要调试一下理解cache的具体工作原理,您指出的CodeGen模型是encoder decoder模型,而InfoXLM是全encoder模型,中间略有区别。
  • 文档的更新,改变了权重下载位置的措辞

jiamingkong avatar Jul 16 '22 10:07 jiamingkong

@jiamingkong 好的,感谢更新。也根据这个修改下哈:https://github.com/PaddlePaddle/PaddleNLP/pull/2560#issuecomment-1181416531 .gitignore不要改动哈, CodeGen应该是decoder模型,InfoXLM是encoder模型,能否做生成任务呢?命名为InfoXLMForCausalLM是否合适呢

gongel avatar Jul 18 '22 03:07 gongel

@gongel 您好,按照comment 2560 我删除了log 和 result csv范例,并且恢复了gitignore,同时将CausalLM删除,我当时尝试把mT6权重也一并转成paddle的过程给忘记了这件事(两个模型的训练方法几乎是一致的)。关于Taboeta的数据集,我目前在子目录README文件中给出了网盘的下载地址,我会单独给出Datasets的实现

jiamingkong avatar Jul 18 '22 03:07 jiamingkong

@gongel 您好,请问还有什么地方需要我修改的吗?

jiamingkong avatar Jul 21 '22 04:07 jiamingkong

@gongel 您好,请问还有什么地方需要我修改的吗?

可以先修改以上的哈,我们迭代看下。

gongel avatar Jul 27 '22 03:07 gongel

您好,那按照当前git的状态,您之前提出的修改意见我这边都已经完成,剩余的是Datasets的实现,这个我单独提交PR

jiamingkong avatar Jul 27 '22 04:07 jiamingkong

datasets 里面对应的数据原始zip 文件在这里: 链接:https://pan.baidu.com/s/1ilgJBhI7dej47LLrWWiHhQ?pwd=iXLM 提取码:iXLM

jiamingkong avatar Aug 06 '22 02:08 jiamingkong

This Pull Request is stale because it has been open for 60 days with no activity. 当前Pull Request 60天内无活动,被标记为stale。

github-actions[bot] avatar Dec 22 '22 16:12 github-actions[bot]

This Pull Request is stale because it has been open for 60 days with no activity. 当前Pull Request 60天内无活动,被标记为stale。

github-actions[bot] avatar Feb 27 '23 00:02 github-actions[bot]

This Pull Request is stale because it has been open for 60 days with no activity. 当前Pull Request 60天内无活动,被标记为stale。

github-actions[bot] avatar May 03 '24 00:05 github-actions[bot]