Fengshenbang-LM
Fengshenbang-LM copied to clipboard
关于IDEA-CCNL/Wenzhong2.0-GPT2-3.5B-chinese数据集格式的疑惑
请问在微调和增量训练阶段,数据集的格式是以下哪种格式呢? 1、 input:我和你 label:我和你 2、 input:bos_token我和你eos_token label:bos_token我和你eos_token 我看微调的代码数据集格式GPT2QADataset是1这种情况?不使用bos和eos吗? 希望您能解答我的疑惑
此外,预测时,需要在原始输入的前面加入bos_token吗
请问在微调和增量训练阶段,数据集的格式是以下哪种格式呢? 1、 input:我和你 label:我和你 2、 input:bos_token我和你eos_token label:bos_token我和你eos_token 我看微调的代码数据集格式GPT2QADataset是1这种情况?不使用bos和eos吗? 希望您能解答我的疑惑
GPT dataset 输入只处理从 raw text 到格式化 text,至于特殊 token 、padding, truncation 等等处理会在 GPT tokenizer 中处理加相应的 eos token ,可以尝试打印输入模型的 input_ids + converts id to token 看到实际输入情况。