UER-py icon indicating copy to clipboard operation
UER-py copied to clipboard

Open Source Pre-training Model Framework in PyTorch & Pre-trained Model Zoo

Results 127 UER-py issues
Sort by recently updated
recently updated
newest added

您好,我在Modelzoo提供的腾讯云链接中下载了HFL的chinese-roberta-wwm-ext-pytorch.bin,请问在执行run_classifier.py时parameter中--spm_model_path应该如何设置?

python环境: GPU cuda配置 多卡跑bert模型预训练是可以的

在预训练中有target为cls的预训练任务,在fintune中也有用于分类的微调 请问对于同一分类数据,使用这两种分类训练有什么区别?

非常感谢您的分享。22年11月的时候我在model zoo里下载了weibo_bert_base_model.bin、mixed_corpus_bert_base_model.bin等模型,当时model zoo提供基于各种数据的预训练模型。这两天我想找同样数据集训练的ALBERT模型对比,发现model zoo里提供的预训练模型只剩基于clue corpus训练的部分模型了,请问原来的预训练模型(比如基于weibo数据等)还提供么,可否给出下载链接。

owner你好,看起来master并不支持deepspeed,请问哪个分支是可以支持deepspeed的,并且requirements里能把deepspeed的支持版本写清楚吗

hi大佬 [gpt2-chinese](https://huggingface.co/uer/gpt2-chinese-cluecorpussmall),我看了,但是没有相关微调的代码,[在此](https://huggingface.co/uer/gpt2-chinese-cluecorpussmall)看到了如下代码,但是数据格式没有告知,也不知道是不是纯文本, ``` python3 preprocess.py --corpus_path corpora/cluecorpussmall.txt \ --vocab_path models/google_zh_vocab.txt \ --dataset_path cluecorpussmall_lm_seq128_dataset.pt \ --seq_length 128 --processes_num 32 --data_processor lm ``` 请教下这个是微调的代码么?

在预处理阶段过长的文本是如何处理的呢,是直接截断了吗。目前想要做一个阅读理解的任务,但是需要针对自己的语料库进行增量预训练,语料库文档长度大多超过500,这是需要将文档分成子句再去做预处理比较好吗。

**您的工作很棒**,预训练模型的加载和训练方法,令我震惊,但是我似乎没有找到mBART的对应方法,包括数据集的构建和预处理代码。我只找到了BART的,请问他们一样吗? ![image](https://github.com/dbiir/UER-py/assets/58644245/e5be302e-d9fc-4800-97dd-bb7e06aaf6dd)

运行process.py生成数据时,--data_processor默认是'bert',这样生成的是mlm+nsp的数据。我在设置--whole_word_masking时,发现由于mask.py中的create_index函数没有删除src前后句子之间的分隔符[SEP],该函数返回的tokens_index, src并不能准确反映整词掩码,主要原因就是中间的[SEP]被分为了'[', 'sep', ']'。前来确认一下,在设置wwm接口的时候,是不是没有考虑生成mlm+nsp格式的数据,只能用于--data_processor设置为'mlm'的情况?

请问该代码主要是针对无监督训练那块的嘛