InstructGLM
InstructGLM copied to clipboard
微调2:BELLE中文指令数据的问题
请问 1)转化bell数据集为jsonl的命令,是否实际应该调用cover_belle2jsonl.py,数据集名称改为BelleGroup/train_0.5M_CN?相应的读取数据集的字段名也要修改? 2)模型训练时,里面的“../../pretrained_models/chatglm-6b”是什么?是否能用"THUDM/chatglm-6b"替换?
请问 1)转化bell数据集为jsonl的命令,是否实际应该调用cover_belle2jsonl.py,数据集名称改为BelleGroup/train_0.5M_CN?相应的读取数据集的字段名也要修改? 2)模型训练时,里面的“../../pretrained_models/chatglm-6b”是什么?是否能用"THUDM/chatglm-6b"替换?
1)是的,需要调用cover_belle2jsonl.py,而不是cover_alpaca2jsonl.py,而且数据集的名称和地址都发生了变化,包括字段名,由target变成了output 2)你可以去huggingface中将模型下载下来,也可以直接使用THUDM/chatglm-6b,train_lora.py有两处代码需要更改地址