UER-py issues

关于文本生成

2

你好，我想用自己的语料，对预训练GPT2模型进行微调，然后进行文本生成任务，请问可以用增量预训练的命令进行微调吗？这是我现在使用的预训练命令： python3 pretrain.py --dataset_path dataset.pt --pretrained_model_path models/cluecorpussmall_gpt2_seq1024_model.bin-250000 --vocab_path models/google_zh_vocab.txt --config_path models/gpt2/distil_config.json --output_model_path models/my_gpt2_model.bin --world_size 1 --gpu_ranks 0 --total_steps 10000 --save_checkpoint_steps 5000 --report_steps 1000 --learning_rate 5e-5 --batch_size 32 --embedding word_pos...

yuzhang112

scripts/extract_embeddings.py 似乎有bug，会报错

`python scripts/extract_embeddings.py --load_model_path models/book_review_word_sp_model.bin --spm_model_path models/cluecorpussmall_spm.model --word_embedding_path embeddings.txt`

sl403

可以通过pip安装吗？

如题

dancingpipi

关于预训练过程中build_instances 句子切分的问题

1

以MlmDataset 中最简单的字粒度为例，不开启full-sentence开关当样本长度超过max_length时候，样本被切分然而此时的 [CLS] [SEP] token 却只存在一份，这是由之前的 document 传入的，样本拆分后并没有产生额外的头尾 token 这种行为符合预期么，理论上每个单独的样本都应该具有一个 [CLS] 头 [SEP] 尾

ShadowTeamCN

请教关于单独训bert任务问题

1

你好，请问在目前uer中单独训mlm和nsp能不能只通过删去target=bert中的loss来实现？这样效果和target=mlm的robert是一致的吗？

linwhitehat

希望能添加beam_search解码方式

1

generate_lm中现在只有top p、top k两种方式

Luoyingfeng8

enhancement

请教关于MLM预训练问题

1

**您好！请问以下几个问题，非常感谢：** **（1）请问我以BERT为基础，进行MLM的预训练，同时采用静态Span masking，请问是正确的操作吗？不知道为何，我实际训练出的模型效果反倒不如原生BERT。** 预训练脚本如下： python3 preprocess.py --corpus_path corpus/corpus.txt \ --vocab_path models/google_zh_vocab.txt \ --dataset_path mlm_base_dataset.pt \ --processes_num 1 --span_masking --span_geo_prob 0.3 --span_max_length 5 --target mlm python3 pretrain.py --dataset_path mlm_base_dataset.pt --vocab_path models/google_zh_vocab.txt...

2021ckck

how to convert HFL Chinese RoBERTa-wwm-large-ext to UER style?

1

请问HFL Chinese RoBERTa-wwm-large-ext的模型是通过哪个脚本进行转换成UER格式呢？是convert_bert_from_huggingface_to_uer.py这个吗？ i wonder how can i convert HFL Chinese RoBERTa-wwm-large-ext model into UER style ?which script should i choose?

Jinchauuuuu