UER-py icon indicating copy to clipboard operation
UER-py copied to clipboard

请问corpora/lyric.txt的格式是什么?

Open Ai-Jiajia opened this issue 3 years ago • 2 comments

您好,我想试试微调和训练你们的Chinese GPT2 Lyric Model,但是发现没有说明corpora/lyric.txt的数据格式,请问怎么把自己下载的歌词处理成corpora/lyric.txt需要的格式呢?

python3 preprocess.py --corpus_path corpora/lyric.txt \
                      --vocab_path models/google_zh_vocab.txt \
                      --dataset_path lyric_dataset.pt --processes_num 32 \
                      --seq_length 512 --target lm

Ai-Jiajia avatar Dec 05 '21 12:12 Ai-Jiajia

一行一段文本 语料格式参照这里 https://github.com/dbiir/UER-py/wiki/Pretraining-model-examples#gpt-2

Embedding avatar Dec 06 '21 03:12 Embedding

一行一段文本 语料格式参照这里 https://github.com/dbiir/UER-py/wiki/Pretraining-model-examples#gpt-2

感谢回复

Ai-Jiajia avatar Dec 07 '21 12:12 Ai-Jiajia