Yunfan Shao comments

Results 35 comments of


Yunfan Shao

用huggingface代码直接进行BART large fineturning出现繁体字

可能是数据处理的问题，Tokenizer和Model都不会对简繁体进行转换，而英文会统一转成小写。

用huggingface代码直接进行BART large fineturning出现繁体字

可能是datasets内部的其它部分？可以打印一些中间结果看看

用huggingface代码直接进行BART large fineturning出现繁体字

> 以下为训练集的数据，训练了1000epoch，可以看到不仅预算变成了預算（繁简），而且A=SM变成了a=sm（大小写），也就是连训练集都没有拟合，训练过程loss是接近于0的 loss接近于0应该有拟合训练集？可能只是全变成繁体了

BART 模型在 pretrain 和 finetune 阶段的数据预处理一致性

BART中[SEP]在预训练时被用来分割打乱的句子。在下游任务中，只有NLI加上[SEP]分割两句话。你可以在下游任务中也加上这个，看看效果。

BART 模型在 pretrain 和 finetune 阶段的数据预处理一致性

我觉得SEP主要用来区分不同的句子的。对句子分割不敏感的任务应该影响不大，比如文本分类、或者生成式摘要。而在抽取式摘要和NLI中加不加SEP可能有点影响。

检查一下是不是模型权重没有加载进来，加载路径对不对。发自我的iPhone 在 2021年12月30日，14:50，Anita-Hailey ***@***.***> 写道：生成代码，模型不能单纯的进行预测吗？我把--do_train去掉，模型输出乱七八糟 — Reply to this email directly, view it on GitHub, or unsubscribe. Triage notifications on the go with GitHub Mobile for iOS...

bart-large-chinese在自定义的数据集上进行进一步的预训练

我们使用Megatron-LM预训练的，需要先处理数据成要求的格式，你可以参考他的readme。然后运行run_pretrain_bart.sh就可以了在 2022年1月14日，00:36，maojinyang ***@***.***> 写道：请问如果我想将bart-large-chinese在自定义的数据集上进行进一步的预训练，大概的流程是怎样的？万分感谢！ — Reply to this email directly, view it on GitHub, or unsubscribe. Triage notifications on the go with GitHub Mobile for...

bart-large-chinese在自定义的数据集上进行进一步的预训练

这个转换脚本就是转成transformers的，但它是针对CPT的，回头我更新一下。在 2022年1月14日，11:27，TUR1NG ***@***.***> 写道：还有一个问题是在进一步预训练中load的模型是可以直接使用huggingface-transfoemers上的权重吗？感谢解答！ — Reply to this email directly, view it on GitHub, or unsubscribe. Triage notifications on the go with GitHub Mobile for iOS or...

bart-large-chinese在自定义的数据集上进行进一步的预训练

我检查了以下，convert_ckpt.py是可以转换BART的权重到transformers的。load会报错可能是模型config和实际参数没对齐，建议重点检查一下config的vocab_size和max_position_embeddings

Yunfan Shao

用huggingface代码直接进行BART large fineturning出现繁体字

用huggingface代码直接进行BART large fineturning出现繁体字

用huggingface代码直接进行BART large fineturning出现繁体字

max_position_embeddings是1024吗

BART 模型在 pretrain 和 finetune 阶段的数据预处理一致性

BART 模型在 pretrain 和 finetune 阶段的数据预处理一致性

模型预测输出

bart-large-chinese在自定义的数据集上进行进一步的预训练

bart-large-chinese在自定义的数据集上进行进一步的预训练

bart-large-chinese在自定义的数据集上进行进一步的预训练