PaddleNLP [NEW MODEL] 增加InfoXLM模型

PR types

New features

PR changes

Models

Description

【飞桨论文复现挑战赛（第六期）】112号论文提交

使用飞桨PaddlePaddle-源于产业实践的开源深度学习平台深度学习框架复现InfoXLM模型。挑战赛的git地址为：https://github.com/jiamingkong/infoxlm_paddle。

详细说明（包括权重转换、使用、实验验证）在model_checkpoints/README.md中。

Jun 17 '22 09:06 jiamingkong

All committers have signed the CLA.

Jun 17 '22 09:06 CLAassistant

请问下datasets下的文件可否使用像HF datasets中已有的呢，这些内容会有些多，可能导致repo会有些过大

Jul 04 '22 01:07 guoshengCS

@jiamingkong 感谢贡献！麻烦签署下CLA. README.md可以统一到examples下面，同时去掉model_checkpoints目录，转好的模型权重留言个链接即可，cross_lingual_sentence_retrieval是否可以移动到text_matching下面。

Jul 08 '22 06:07 gongel

@jiamingkong 感谢贡献！麻烦签署下CLA. README.md可以统一到examples下面，同时去掉model_checkpoints目录，转好的模型权重留言个链接即可，cross_lingual_sentence_retrieval是否可以移动到text_matching下面。

@gongel 您好，按照上述反馈，我们完成了如下修改：

签署CLA
README移动到了examples/text_matching/cross_lingual_sentence_retrieval下面
转换好的权重下载地址在上述README.md也保存了一份：

权重下载地址为：

链接：https://pan.baidu.com/s/1_lkvBOBOtdTGvoesWOicQg?pwd=ixlm 提取码：ixlm

@guoshengCS 您好，cross_lingual_sentence_retrieval任务中使用的数据集在当前的datasets并没有开源实现，所以我们从facebook LASER的git里面把原始文本给保存了下来；在最新的提交中，我们已经去除了这个数据集合以减少git大小，同时附带了网盘下载地址，该地址在上述的README.md 中也有提到：

Taboeta下载地址：

链接：https://pan.baidu.com/s/1bLd_GgoBRf6z4olC9dsVyg?pwd=clsr 提取码：clsr

Jul 09 '22 01:07 jiamingkong

好收到，感谢更新。README.md只保留examples下面一份即可，另外log.txt可以去掉，sentence_retrieval_results.csv也去掉。另外数据集是否可以考虑弄成datasets并托管在百度bcebos上面，可参考dureader_robust

Jul 12 '22 07:07 gongel

@gongel 您好，按照您的review，我已经修改了代码，具体修改地方为：

删除了不需要的debug语句
Tokenizer中关于Fnet的字样删除了，像Fnet一样继承了AlbertTokenizer
增加了use_cache, cache的传参位置，但是具体的实现上还没有改变，我还需要调试一下理解cache的具体工作原理，您指出的CodeGen模型是encoder decoder模型，而InfoXLM是全encoder模型，中间略有区别。
文档的更新，改变了权重下载位置的措辞

Jul 16 '22 10:07 jiamingkong

@jiamingkong 好的，感谢更新。也根据这个修改下哈：https://github.com/PaddlePaddle/PaddleNLP/pull/2560#issuecomment-1181416531 .gitignore不要改动哈， CodeGen应该是decoder模型，InfoXLM是encoder模型，能否做生成任务呢？命名为InfoXLMForCausalLM是否合适呢

Jul 18 '22 03:07 gongel

@gongel 您好，按照comment 2560 我删除了log 和 result csv范例，并且恢复了gitignore，同时将CausalLM删除，我当时尝试把mT6权重也一并转成paddle的过程给忘记了这件事（两个模型的训练方法几乎是一致的）。关于Taboeta的数据集，我目前在子目录README文件中给出了网盘的下载地址，我会单独给出Datasets的实现

Jul 18 '22 03:07 jiamingkong

@gongel 您好，请问还有什么地方需要我修改的吗？

Jul 21 '22 04:07 jiamingkong

@gongel 您好，请问还有什么地方需要我修改的吗？

可以先修改以上的哈，我们迭代看下。

Jul 27 '22 03:07 gongel

您好，那按照当前git的状态，您之前提出的修改意见我这边都已经完成，剩余的是Datasets的实现，这个我单独提交PR

Jul 27 '22 04:07 jiamingkong

datasets 里面对应的数据原始zip 文件在这里：链接：https://pan.baidu.com/s/1ilgJBhI7dej47LLrWWiHhQ?pwd=iXLM 提取码：iXLM

Aug 06 '22 02:08 jiamingkong

This Pull Request is stale because it has been open for 60 days with no activity. 当前Pull Request 60天内无活动，被标记为stale。

Dec 22 '22 16:12 github-actions[bot]

This Pull Request is stale because it has been open for 60 days with no activity. 当前Pull Request 60天内无活动，被标记为stale。

Feb 27 '23 00:02 github-actions[bot]

This Pull Request is stale because it has been open for 60 days with no activity. 当前Pull Request 60天内无活动，被标记为stale。

May 03 '24 00:05 github-actions[bot]

PaddleNLP PaddleNLP copied to clipboard

[NEW MODEL] 增加InfoXLM模型

PR types

PR changes

Description

PaddleNLP
PaddleNLP copied to clipboard