UER-py issues

1 没有uer/utils/data.py 文件 2 使用BERT-WWM对整词进行遮罩，如何添加自定义领域词典？

1. readme文件里说可以通过修改 uer/utils/data.py 中的代码将分词工具由jieba替换为其他分词工具。但是没有 uer/utils/data.py 这个文件，我在 uer/utils/mask.py文件里找到了import jieba，请问修改mask文件是否正确？ 2. 是否可以直接加上一句jieba.load_userdict()实现添加自定义词典？还需要对google_zh_vocab.txt进行修改吗？

943433536

seq2seq模型验证时如何使用BLUE这些指标，我看里面都是混淆矩阵

panbo-bridge

T5模型预训练问题

您好：我尝试基于t5_base模型进行预训练pretrain，数据量较少大概3000多条，训练了1000步，结果输出基本全是“”的“”，如下： input= "中extra0的首都是extra1京" output=[{'generated_text': 'extra0 的 extra1 的 extra2 extra3'}] 请问我这是过拟合了破坏原来模型参数了？？哪位大神指导一下

zhangzai666

问一下t5预训练模型如何推理

尊敬的作者您好！看了您的代码我受益匪浅，下面有一个问题请您指教，我看到[Hugging Face]中有关T5预训练模型的推理代码，直接用transformers库推理的，如下： from transformers import BertTokenizer, T5ForConditionalGeneration, Text2TextGenerationPipeline tokenizer = BertTokenizer.from_pretrained("uer/t5-small-chinese-cluecorpussmall") model = T5ForConditionalGeneration.from_pretrained("uer/t5-small-chinese-cluecorpussmall") text2text_generator = Text2TextGenerationPipeline(model, tokenizer) text2text_generator("中国的首都是extra0京", max_length=50, do_sample=False) [{'generated_text': 'extra0 北 extra1 extra2 extra3 extra4...

zhangzai666

请问有没有UER的t5v1.1和google的mT5中中文能力的对比呀？

nameless0704

如何训练seq2seq 的unilm

zhihao-chen

Is it possible to get embedding directly

Hello, is there any way I can get the embeddings of each text directly from the pretrained model without having to do following tasks when I use the command line...

ChongruiYang

Why do I encounter a sudden MLM accuracy drop during training?

1

I am training a BERT-base model for Chinese. Default MLM and NSP tasks are used. I am trying to train the model for 96k steps to see if it benefits...

dr-GitHub-account

UER格式的Google预训练模型与原始格式（transformers库的from_pretrained输入的格式）之间如何相互转换？

1

README文件中有这么一段： “……下载Google中文预训练模型[google_zh_model.bin](https://share.weiyun.com/DHhfYBOH)（此文件为UER支持的格式，原始模型来自于[这里](https://github.com/google-research/bert)）……”。希望请教一下，如果我希望拿UER工具箱内预训练好的UER格式的模型，在所需预训练模型格式为Google原始格式（transformers库的from_pretrained输入的格式，权重文件名为pytorch_model.bin）的下游任务上做微调，应该如何操作呢？

dr-GitHub-account

中文特定领域预训练数据集规模

自适应预训练 (Adaptive Pretraining) ，即在某一领域的无标签语料上面进行预训练，再在该领域下游任务上进行微调，往往比直接微调通用领域的预训练模型效果更好，典型工作: [Don't Stop Pretraining: Adapt Language Models to Domains and Tasks](https://arxiv.org/abs/2004.10964)。对应到UER的论文中，即 3.4 中提到的 Stage 2: pre-training on downstream dataset. 目前相关工作有论文发表的 ([BioBERT](https://academic.oup.com/bioinformatics/article-abstract/36/4/1234/5566506)、[SciBERT](https://arxiv.org/abs/1903.10676)) 基本都是英文数据集。请问有没有用中文特定领域数据集做过自适应预训练，在下游任务取得一定性能提升的朋友可以介绍一下数据集的规模？

dr-GitHub-account

UER-py
UER-py copied to clipboard

Metadata

1 没有uer/utils/data.py 文件 2 使用BERT-WWM对整词进行遮罩，如何添加自定义领域词典？

seq2seq模型验证时如何使用BLUE这些指标，我看里面都是混淆矩阵

T5模型预训练问题

问一下t5预训练模型如何推理

请问有没有UER的t5v1.1和google的mT5中中文能力的对比呀？

如何训练seq2seq 的unilm

Is it possible to get embedding directly

Why do I encounter a sudden MLM accuracy drop during training?

UER格式的Google预训练模型与原始格式（transformers库的from_pretrained输入的格式）之间如何相互转换？

中文特定领域预训练数据集规模

← Metadata

Owner

Metadata

UER-py UER-py copied to clipboard

Metadata

← Metadata

Owner

Metadata

UER-py
UER-py copied to clipboard