PaddleNLP
PaddleNLP copied to clipboard
[NEW MODEL] 增加InfoXLM模型
PR types
New features
PR changes
Models
Description
【飞桨论文复现挑战赛(第六期)】112号论文提交
使用飞桨PaddlePaddle-源于产业实践的开源深度学习平台 深度学习框架复现InfoXLM模型。 挑战赛的git地址为:https://github.com/jiamingkong/infoxlm_paddle。
详细说明(包括权重转换、使用、实验验证)在model_checkpoints/README.md中。
请问下datasets下的文件可否使用像HF datasets中已有的呢,这些内容会有些多,可能导致repo会有些过大
@jiamingkong 感谢贡献!麻烦签署下CLA. README.md
可以统一到examples
下面,同时去掉model_checkpoints
目录,转好的模型权重留言个链接即可,cross_lingual_sentence_retrieval
是否可以移动到text_matching
下面。
@jiamingkong 感谢贡献!麻烦签署下CLA.
README.md
可以统一到examples
下面,同时去掉model_checkpoints
目录,转好的模型权重留言个链接即可,cross_lingual_sentence_retrieval
是否可以移动到text_matching
下面。
@gongel 您好,按照上述反馈,我们完成了如下修改:
- 签署CLA
- README移动到了
examples/text_matching/cross_lingual_sentence_retrieval
下面 - 转换好的权重下载地址在上述README.md也保存了一份:
权重下载地址为:
链接:https://pan.baidu.com/s/1_lkvBOBOtdTGvoesWOicQg?pwd=ixlm 提取码:ixlm
@guoshengCS 您好,cross_lingual_sentence_retrieval任务中使用的数据集在当前的datasets并没有开源实现,所以我们从facebook LASER的git里面把原始文本给保存了下来;在最新的提交中,我们已经去除了这个数据集合以减少git大小,同时附带了网盘下载地址,该地址在上述的README.md 中也有提到:
Taboeta下载地址:
链接:https://pan.baidu.com/s/1bLd_GgoBRf6z4olC9dsVyg?pwd=clsr 提取码:clsr
好收到,感谢更新。README.md只保留examples下面一份即可,另外log.txt可以去掉,sentence_retrieval_results.csv也去掉。另外数据集是否可以考虑弄成datasets并托管在百度bcebos上面,可参考dureader_robust
@gongel 您好,按照您的review,我已经修改了代码,具体修改地方为:
- 删除了不需要的debug语句
- Tokenizer中关于Fnet的字样删除了,像Fnet一样继承了AlbertTokenizer
- 增加了use_cache, cache的传参位置,但是具体的实现上还没有改变,我还需要调试一下理解cache的具体工作原理,您指出的CodeGen模型是encoder decoder模型,而InfoXLM是全encoder模型,中间略有区别。
- 文档的更新,改变了权重下载位置的措辞
@jiamingkong 好的,感谢更新。也根据这个修改下哈:https://github.com/PaddlePaddle/PaddleNLP/pull/2560#issuecomment-1181416531
.gitignore
不要改动哈,
CodeGen
应该是decoder模型,InfoXLM是encoder模型,能否做生成任务呢?命名为InfoXLMForCausalLM
是否合适呢
@gongel 您好,按照comment 2560 我删除了log 和 result csv范例,并且恢复了gitignore,同时将CausalLM删除,我当时尝试把mT6权重也一并转成paddle的过程给忘记了这件事(两个模型的训练方法几乎是一致的)。关于Taboeta的数据集,我目前在子目录README文件中给出了网盘的下载地址,我会单独给出Datasets的实现
@gongel 您好,请问还有什么地方需要我修改的吗?
@gongel 您好,请问还有什么地方需要我修改的吗?
可以先修改以上的哈,我们迭代看下。
您好,那按照当前git的状态,您之前提出的修改意见我这边都已经完成,剩余的是Datasets的实现,这个我单独提交PR
datasets 里面对应的数据原始zip 文件在这里: 链接:https://pan.baidu.com/s/1ilgJBhI7dej47LLrWWiHhQ?pwd=iXLM 提取码:iXLM
This Pull Request is stale because it has been open for 60 days with no activity. 当前Pull Request 60天内无活动,被标记为stale。
This Pull Request is stale because it has been open for 60 days with no activity. 当前Pull Request 60天内无活动,被标记为stale。
This Pull Request is stale because it has been open for 60 days with no activity. 当前Pull Request 60天内无活动,被标记为stale。