roberta_zh issues

Results 47 roberta_zh issues

Sort by recently updated

请问关于数据预处理

你好，请问在预训练的时候，数据预处理有去掉停用词等操作吗？还是就是不做任何处理就进行训练了？谢谢。

ouwenjie03

在pytorch模型上做post train

代码是基于tensorflow的，如果我想要得到pytorch版本，在特定领域继续训练的模型，应该怎么办？只能先用tensforflow post train,然后再转为pytorch? 谢谢

daniellibin

关于在您的模型上继续预训练

您好打扰您了我用您的roberta模型进行微调效果很好但是我用您的模型进行预训练，一上来的mlm准确率是0。我也用完形填空试了一下，确实模型不能进行准确的预测。所以我猜测您的预训练模型的最上层（单词预测）是不是有一些问题，期待您的回复～

zhezhaoa

tensorboard可视化模型输出结果 train的masked_lm_loss和masked_lm_accuracy是空的，eval的图只有一个点

hhanyyan

我注意到在脚本create_pretraining_data.py中564行， masked_lms.append(MaskedLmInstance(index=index, label=tokens[index])) 这一行制作MLM预测标签时，label采用的是tokens[index]，而tokens为了全词掩盖，在预处理阶段对部分字做了"##"处理，按照这一行的逻辑，全词掩盖后MLM的监督标签中，将有很大部分由带有前缀"##"的token组成。这种情况在英文中是可以理解的，因为在fine tune阶段英文词同样会做wordpiece处理，但中文在fine tune阶段却不会做分词处理，这在中文中合理吗？

Rango94

数据处理中re.findall('##[\u4E00-\u9FA5]')作用

请问预训练中数据处理whole word mask 中这一行有什么作用，我发现如果去掉这行后效果会显著下降https://github.com/brightmart/roberta_zh/blob/13f7849f0cb0e11573e032acddb35b83b096224e/create_pretraining_data.py#L526

xiaojinglu

预处理数据丢失问题

你好，在数据预处理代码中，若该行的数据长度超过max_sequence_length_allowed，则该行数据就丢失了？ ![11](https://user-images.githubusercontent.com/33216487/108503529-7e7fff80-72ef-11eb-8783-6269d15b8692.jpg)

puzzledTao

利用roberta_zh的tokenizer来做中文NER任务时报错

想利用roberta_zh的tokenizer来做中文NER任务，用huggingface transformers官方的run_ner.py脚本作模板跑本地中文模型和数据，但在本地数据集通过datasets.load_dataset()读入后报错如下： Traceback (most recent call last): File "/opt/conda/lib/python3.7/runpy.py", line 193, in _run_module_as_main "__main__", mod_spec) File "/opt/conda/lib/python3.7/runpy.py", line 85, in _run_code exec(code, run_globals) File "/home/app/ner_longformer/run_ner.py", line 600, in main() File...

Honma-Rika

动态mask逻辑的实现

请问一下，动态mask逻辑的代码实现是在项目的哪一块

humdingers

roberta_zh
roberta_zh copied to clipboard

Metadata

Loss curve

请问关于数据预处理

在pytorch模型上做post train

关于在您的模型上继续预训练

tensorboard可视化模型输出结果 train的masked_lm_loss和masked_lm_accuracy是空的，eval的图只有一个点

关于MLM中，中文全词掩盖的预测标签问题

数据处理中re.findall('##[\u4E00-\u9FA5]')作用

预处理数据丢失问题

利用roberta_zh的tokenizer来做中文NER任务时报错

动态mask逻辑的实现

← Metadata

Owner

Metadata

roberta_zh roberta_zh copied to clipboard

Metadata

← Metadata

Owner

Metadata

roberta_zh
roberta_zh copied to clipboard