UER-py icon indicating copy to clipboard operation
UER-py copied to clipboard

Open Source Pre-training Model Framework in PyTorch & Pre-trained Model Zoo

Results 127 UER-py issues
Sort by recently updated
recently updated
newest added

1. readme文件里说可以通过修改 uer/utils/data.py 中的代码将分词工具由jieba替换为其他分词工具。但是没有 uer/utils/data.py 这个文件,我在 uer/utils/mask.py文件里找到了import jieba,请问修改mask文件是否正确? 2. 是否可以直接加上一句jieba.load_userdict()实现添加自定义词典?还需要对google_zh_vocab.txt进行修改吗?

您好: 我尝试基于t5_base模型进行预训练pretrain,数据量较少大概3000多条,训练了1000步,结果输出基本全是“”的“”,如下: input= "中extra0的首都是extra1京" output=[{'generated_text': 'extra0 的 extra1 的 extra2 extra3'}] 请问我这是过拟合了破坏原来模型参数了?? 哪位大神指导一下

尊敬的作者您好! 看了您的代码我受益匪浅,下面有一个问题请您指教, 我看到[Hugging Face]中有关T5预训练模型的推理代码,直接用transformers库推理的,如下: from transformers import BertTokenizer, T5ForConditionalGeneration, Text2TextGenerationPipeline tokenizer = BertTokenizer.from_pretrained("uer/t5-small-chinese-cluecorpussmall") model = T5ForConditionalGeneration.from_pretrained("uer/t5-small-chinese-cluecorpussmall") text2text_generator = Text2TextGenerationPipeline(model, tokenizer) text2text_generator("中国的首都是extra0京", max_length=50, do_sample=False) [{'generated_text': 'extra0 北 extra1 extra2 extra3 extra4...

Hello, is there any way I can get the embeddings of each text directly from the pretrained model without having to do following tasks when I use the command line...

I am training a BERT-base model for Chinese. Default MLM and NSP tasks are used. I am trying to train the model for 96k steps to see if it benefits...

README文件中有这么一段: “……下载Google中文预训练模型[google_zh_model.bin](https://share.weiyun.com/DHhfYBOH)(此文件为UER支持的格式,原始模型来自于[这里](https://github.com/google-research/bert))……”。 希望请教一下,如果我希望拿UER工具箱内预训练好的UER格式的模型,在所需预训练模型格式为Google原始格式(transformers库的from_pretrained输入的格式,权重文件名为pytorch_model.bin)的下游任务上做微调,应该如何操作呢?

自适应预训练 (Adaptive Pretraining) ,即在某一领域的无标签语料上面进行预训练,再在该领域下游任务上进行微调,往往比直接微调通用领域的预训练模型效果更好,典型工作: [Don't Stop Pretraining: Adapt Language Models to Domains and Tasks](https://arxiv.org/abs/2004.10964)。对应到UER的论文中,即 3.4 中提到的 Stage 2: pre-training on downstream dataset. 目前相关工作有论文发表的 ([BioBERT](https://academic.oup.com/bioinformatics/article-abstract/36/4/1234/5566506)、[SciBERT](https://arxiv.org/abs/1903.10676)) 基本都是英文数据集。请问有没有用中文特定领域数据集做过自适应预训练,在下游任务取得一定性能提升的朋友可以介绍一下数据集的规模?