UER-py
UER-py copied to clipboard
Open Source Pre-training Model Framework in PyTorch & Pre-trained Model Zoo
关于文本生成
你好,我想用自己的语料,对预训练GPT2模型进行微调,然后进行文本生成任务,请问可以用增量预训练的命令进行微调吗? 这是我现在使用的预训练命令: python3 pretrain.py --dataset_path dataset.pt --pretrained_model_path models/cluecorpussmall_gpt2_seq1024_model.bin-250000 --vocab_path models/google_zh_vocab.txt --config_path models/gpt2/distil_config.json --output_model_path models/my_gpt2_model.bin --world_size 1 --gpu_ranks 0 --total_steps 10000 --save_checkpoint_steps 5000 --report_steps 1000 --learning_rate 5e-5 --batch_size 32 --embedding word_pos...
`python scripts/extract_embeddings.py --load_model_path models/book_review_word_sp_model.bin --spm_model_path models/cluecorpussmall_spm.model --word_embedding_path embeddings.txt`
如题
以MlmDataset 中 最简单的字粒度为例,不开启full-sentence开关 当样本长度超过max_length时候,样本被切分 然而此时的 [CLS] [SEP] token 却只存在一份,这是由之前的 document 传入的,样本拆分后并没有产生额外的头尾 token 这种行为符合预期么,理论上每个单独的样本都应该具有一个 [CLS] 头 [SEP] 尾
你好,请问在目前uer中单独训mlm和nsp能不能只通过删去target=bert中的loss来实现?这样效果和target=mlm的robert是一致的吗?
**您好!请问以下几个问题,非常感谢:** **(1)请问我以BERT为基础,进行MLM的预训练,同时采用静态Span masking,请问是正确的操作吗?不知道为何,我实际训练出的模型效果反倒不如原生BERT。** 预训练脚本如下: python3 preprocess.py --corpus_path corpus/corpus.txt \ --vocab_path models/google_zh_vocab.txt \ --dataset_path mlm_base_dataset.pt \ --processes_num 1 --span_masking --span_geo_prob 0.3 --span_max_length 5 --target mlm python3 pretrain.py --dataset_path mlm_base_dataset.pt --vocab_path models/google_zh_vocab.txt...
请问HFL Chinese RoBERTa-wwm-large-ext的模型是通过哪个脚本进行转换成UER格式呢?是convert_bert_from_huggingface_to_uer.py这个吗? i wonder how can i convert HFL Chinese RoBERTa-wwm-large-ext model into UER style ?which script should i choose?
你好,我想尝试将其他预训练模型中的目标任务改写到bert中,比如ernie的实体掩码方法,是否有一些教程有说明当前的代码结构能够帮助我写新的目标任务?