Fengshenbang-LM 关于IDEA-CCNL/Wenzhong2.0-GPT2-3.5B-chinese数据集格式的疑惑

关于IDEA-CCNL/Wenzhong2.0-GPT2-3.5B-chinese数据集格式的疑惑

Open xiaotingyun opened this issue 1 year ago • 2 comments

请问在微调和增量训练阶段，数据集的格式是以下哪种格式呢？ 1、 input:我和你 label:我和你 2、 input:bos_token我和你eos_token label:bos_token我和你eos_token 我看微调的代码数据集格式GPT2QADataset是1这种情况？不使用bos和eos吗？希望您能解答我的疑惑

Jun 06 '23 15:06 xiaotingyun

此外，预测时，需要在原始输入的前面加入bos_token吗

Jun 07 '23 11:06 xiaotingyun

请问在微调和增量训练阶段，数据集的格式是以下哪种格式呢？ 1、 input:我和你 label:我和你 2、 input:bos_token我和你eos_token label:bos_token我和你eos_token 我看微调的代码数据集格式GPT2QADataset是1这种情况？不使用bos和eos吗？希望您能解答我的疑惑

GPT dataset 输入只处理从 raw text 到格式化 text，至于特殊 token 、padding, truncation 等等处理会在 GPT tokenizer 中处理加相应的 eos token ，可以尝试打印输入模型的 input_ids + converts id to token 看到实际输入情况。

Sep 04 '23 08:09 Desein-Yang

Fengshenbang-LM Fengshenbang-LM copied to clipboard

关于IDEA-CCNL/Wenzhong2.0-GPT2-3.5B-chinese数据集格式的疑惑

Fengshenbang-LM
Fengshenbang-LM copied to clipboard