UER-py
UER-py copied to clipboard
请问corpora/lyric.txt的格式是什么?
您好,我想试试微调和训练你们的Chinese GPT2 Lyric Model,但是发现没有说明corpora/lyric.txt的数据格式,请问怎么把自己下载的歌词处理成corpora/lyric.txt需要的格式呢?
python3 preprocess.py --corpus_path corpora/lyric.txt \
--vocab_path models/google_zh_vocab.txt \
--dataset_path lyric_dataset.pt --processes_num 32 \
--seq_length 512 --target lm
一行一段文本 语料格式参照这里 https://github.com/dbiir/UER-py/wiki/Pretraining-model-examples#gpt-2
一行一段文本 语料格式参照这里 https://github.com/dbiir/UER-py/wiki/Pretraining-model-examples#gpt-2
感谢回复