UER-py 请问corpora/lyric.txt的格式是什么？

请问corpora/lyric.txt的格式是什么？

Open Ai-Jiajia opened this issue 3 years ago • 2 comments

您好，我想试试微调和训练你们的Chinese GPT2 Lyric Model，但是发现没有说明corpora/lyric.txt的数据格式，请问怎么把自己下载的歌词处理成corpora/lyric.txt需要的格式呢？

python3 preprocess.py --corpus_path corpora/lyric.txt \
                      --vocab_path models/google_zh_vocab.txt \
                      --dataset_path lyric_dataset.pt --processes_num 32 \
                      --seq_length 512 --target lm

Dec 05 '21 12:12 Ai-Jiajia

一行一段文本语料格式参照这里 https://github.com/dbiir/UER-py/wiki/Pretraining-model-examples#gpt-2

Dec 06 '21 03:12 Embedding

一行一段文本语料格式参照这里 https://github.com/dbiir/UER-py/wiki/Pretraining-model-examples#gpt-2

感谢回复

Dec 07 '21 12:12 Ai-Jiajia

UER-py UER-py copied to clipboard

请问corpora/lyric.txt的格式是什么？

UER-py
UER-py copied to clipboard