Chat-Haruhi-Suzumiya
Chat-Haruhi-Suzumiya copied to clipboard
Haruhi-Zero数据组织问题
@LC1332 感谢作者项目的无私分享,我在学习您的数据生成时发现一些疑惑,想请教一下: 具体参考的数据 https://huggingface.co/datasets/silk-road/Haruhi-Zero/tree/main
1、对于RoleLLM-sample.jsonl,Haruhi52_sample.jsonl等,我大致总结了一下数据组织方式,问题 1: 不知是否正确? a. 通过embedding相似度获取context,并以\n###\n分割; b. 数据组织成from,value这种shareGPT格式; c. 每个对话使用「和」括住;
疑惑: 我跟进了您最新上传的novel_50_xx-sample.jsonl以及tranlsated_and_split_PIPPA_sample.jsonl,
发现似乎并不按照上述方式组织,【似乎没有了相似度获取的context,以及每个对话使用「和」括住;】
问题2: 类似多种数据组织方式对于训练的影响大吗?