Yunfan Shao comments

Results 35 comments of


Yunfan Shao

ner模型的问题

这个报错我无法复现，怀疑是环境不一样导致的，这是我用的： FastNLP==0.6.0 torch==1.8.1 transformers==4.4.1 numpy==1.19.2 Python==3.7.10

RuntimeError:add_code_sample_docstrings() got an unexpected keyword argument 'tokenizer_class'RuntimeError: Failed to import roformer.modeling_roformer because of the following error (look up to see its traceback): add_code_sample_docstrings() got an unexpected keyword argument 'tokenizer_class'

Please check the requirements: pytorch==1.8.1 transformers==4.4.1

classification/CLUEWSC 2020数据集上效果没达到

这个数据集本身较小，结果波动较大很正常，推荐再调一调超参多实验几次

classification/CLUEWSC 2020数据集上效果没达到

这是论文所使用超参，仅供参考：batch size 8, learning rate 2e-5, epoch 50, warmup ratio 0.06

请问summarization 句子text最长是不是不能超过512，我看model的posional embedding只有514，想要摘要更长的句子应该怎么做呢？

要支持更长的输入，可以改一下model的max_position_embeddings，比如改成1024，2048。这部分新的position embeddings重新训练一下，应该就行了

有关bart-base-chinese的vocab.txt文件

是的，CPT和BART都用的Bert的词表

参考 https://github.com/fastnlp/CPT/issues/32 [https://opengraph.githubassets.com/2c9a066e94e45dd3770670017be70ba5c8ad2309efabc3c16ee933999b131016/fastnlp/CPT/issues/32] 生成任务的数据・ Issue #32 ・ fastnlp/CPT ・ GitHub 您好，官网上下载的数据格式和模型需要的输入不一致，麻烦您可以也发一下代码能接收的csl和adgen的数据吗？十分感谢 ... github.com ________________________________ 发件人: dongxq ***@***.***> 发送时间: 2022年7月15日 23:27 收件人: fastnlp/CPT ***@***.***> 抄送: Yunfan Shao ***@***.***>; Comment ***@***.***>...

index out of range in self

CPT和BART输入应该是一样的，可能是句子太长了，CPT仅支持512

使用自定义数据集在bart-base-chinese的继续pretrain

你可以在模型初始化的时候加载预训练好的参数。比如训练BART的时候，在对应的https://github.com/fastnlp/CPT/blob/24eceed8b11a821f1ce8648ac2372714bc43c7a2/pretrain/megatron/model/bart_model.py#L45 这一行改成使用from_pretrained的方式加载模型参数。如果要训练CPT也是类似的，修改cpt_model.py就行。

Yunfan Shao

ner模型的问题

RuntimeError:add_code_sample_docstrings() got an unexpected keyword argument 'tokenizer_class'RuntimeError: Failed to import roformer.modeling_roformer because of the following error (look up to see its traceback): add_code_sample_docstrings() got an unexpected keyword argument 'tokenizer_class'

classification/CLUEWSC 2020数据集上效果没达到

classification/CLUEWSC 2020数据集上效果没达到

请问summarization 句子text最长是不是不能超过512，我看model的posional embedding只有514，想要摘要更长的句子应该怎么做呢？

有关bart-base-chinese的vocab.txt文件

CSL摘要数据集没达到效果。

CSL摘要数据集没达到效果。

index out of range in self

使用自定义数据集在bart-base-chinese的继续pretrain