roberta_zh icon indicating copy to clipboard operation
roberta_zh copied to clipboard

RoBERTa中文预训练模型: RoBERTa for Chinese

Results 47 roberta_zh issues
Sort by recently updated
recently updated
newest added

loss 曲线如何打印出来的

你好, 请问在预训练的时候,数据预处理有去掉停用词等操作吗?还是就是不做任何处理就进行训练了? 谢谢。

代码是基于tensorflow的,如果我想要得到pytorch版本,在特定领域继续训练的模型,应该怎么办? 只能先用tensforflow post train,然后再转为pytorch? 谢谢

您好打扰您了 我用您的roberta模型进行微调效果很好 但是我用您的模型进行预训练,一上来的mlm准确率是0。我也用完形填空试了一下,确实模型不能进行准确的预测。所以我猜测您的预训练模型的最上层(单词预测)是不是有一些问题,期待您的回复~

我注意到在脚本create_pretraining_data.py中564行, masked_lms.append(MaskedLmInstance(index=index, label=tokens[index])) 这一行制作MLM预测标签时,label采用的是tokens[index],而tokens为了全词掩盖,在预处理阶段对部分字做了"##"处理,按照这一行的逻辑,全词掩盖后MLM的监督标签中,将有很大部分由带有前缀"##"的token组成。这种情况在英文中是可以理解的,因为在fine tune阶段英文词同样会做wordpiece处理,但中文在fine tune阶段却不会做分词处理,这在中文中合理吗?

请问预训练中数据处理whole word mask 中这一行有什么作用,我发现如果去掉这行后效果会显著下降https://github.com/brightmart/roberta_zh/blob/13f7849f0cb0e11573e032acddb35b83b096224e/create_pretraining_data.py#L526

你好,在数据预处理代码中,若该行的数据长度超过max_sequence_length_allowed,则该行数据就丢失了? ![11](https://user-images.githubusercontent.com/33216487/108503529-7e7fff80-72ef-11eb-8783-6269d15b8692.jpg)

想利用roberta_zh的tokenizer来做中文NER任务,用huggingface transformers官方的run_ner.py脚本作模板跑本地中文模型和数据,但在本地数据集通过datasets.load_dataset()读入后报错如下: Traceback (most recent call last): File "/opt/conda/lib/python3.7/runpy.py", line 193, in _run_module_as_main "__main__", mod_spec) File "/opt/conda/lib/python3.7/runpy.py", line 85, in _run_code exec(code, run_globals) File "/home/app/ner_longformer/run_ner.py", line 600, in main() File...

请问一下,动态mask逻辑的代码实现是在项目的哪一块