Fengshenbang-LM icon indicating copy to clipboard operation
Fengshenbang-LM copied to clipboard

关于IDEA-CCNL/Wenzhong2.0-GPT2-3.5B-chinese数据集格式的疑惑

Open xiaotingyun opened this issue 1 year ago • 2 comments

请问在微调和增量训练阶段,数据集的格式是以下哪种格式呢? 1、 input:我和你 label:我和你 2、 input:bos_token我和你eos_token label:bos_token我和你eos_token 我看微调的代码数据集格式GPT2QADataset是1这种情况?不使用bos和eos吗? 希望您能解答我的疑惑

xiaotingyun avatar Jun 06 '23 15:06 xiaotingyun

此外,预测时,需要在原始输入的前面加入bos_token吗

xiaotingyun avatar Jun 07 '23 11:06 xiaotingyun

请问在微调和增量训练阶段,数据集的格式是以下哪种格式呢? 1、 input:我和你 label:我和你 2、 input:bos_token我和你eos_token label:bos_token我和你eos_token 我看微调的代码数据集格式GPT2QADataset是1这种情况?不使用bos和eos吗? 希望您能解答我的疑惑

GPT dataset 输入只处理从 raw text 到格式化 text,至于特殊 token 、padding, truncation 等等处理会在 GPT tokenizer 中处理加相应的 eos token ,可以尝试打印输入模型的 input_ids + converts id to token 看到实际输入情况。

Desein-Yang avatar Sep 04 '23 08:09 Desein-Yang