embedding comments

Results 17 comments of


                                            embedding

执行run_classifier_infer遇到问题

可能是文件编码的问题比如推理UTF-8 with BOM编码的文件会导致上面的问题，即使第一行有text_a

感谢您的提问（1）您的操作没有问题。span masking不一定在中文上效果更好，可以试试wwm masking （2）由于预训练使用的是mlm，因此没有nsp相关权重，在转换的时候，target需要选择mlm （3&4）训练出来的模型，在embedding和encoder层和原生BERT一样，在下游任务上可以一样使用。target部分只有MLM权重，没有NSP权重。NSP并不是特别重要，因此target选择bert或mlm都可以。如果要复现BERT模型，需要使用 *--target bert* ，如果复现RoBERTa模型，需要使用 *--target mlm*

更换vocab文件后提示word_embedding shape错误

可以提供一下命令么？应该是加载的模型和使用的词典不匹配

请问corpora/lyric.txt的格式是什么？

一行一段文本语料格式参照这里 https://github.com/dbiir/UER-py/wiki/Pretraining-model-examples#gpt-2

多卡运行卡在transformer部分

您的语料是BERT格式的么？直接邮件联系吧 [email protected]

Unix or Windows line endings

Thanks for the suggestion. We are going to use Unix line endings uniformly.

how to convert HFL Chinese RoBERTa-wwm-large-ext to UER style?

*scripts/convert_bert_from_huggingface_to_uer.py* More details can be found [here](https://github.com/dbiir/UER-py/wiki/Scripts).

数据预处理的时候报一下异常了

您好，可以把命令以及语料的格式发出来一下？

数据预处理的时候报一下异常了

使用的是mlm目标任务，不应该使用bert的语料格式 https://github.com/dbiir/UER-py/wiki/Quickstart ![image](https://user-images.githubusercontent.com/31317254/115357686-7e1cbb80-a1ef-11eb-9f79-70eaf4586f25.png) `corpora/part-2021012611.txt`是已经用空格分开的语料么？如果是的，应该使用`--tokenizer space` 如果预处理preprocess使用了`--dynamic_masking`，应该在预训练pretrain阶段指定`--span_masking`

应用于英文除0报错

您好因为模型可能没有学习到任何东西，全部预测为类别0 您可以再检查一下数据集是否合理，似乎您的验证集只有十几条正样本此外您的tokenizer选择的是space，应该选择bert，这样和这个词典是对应上的 models/google_uncased_en_vocab.txt 更多细节需要讨论可以直接邮箱联系哈 [email protected]