textgen icon indicating copy to clipboard operation
textgen copied to clipboard

关于数据集处理

Open kostya-sec opened this issue 2 years ago • 4 comments

Describe the Question

Please provide a clear and concise description of what the question is.

Describe your attempts

  • [ x] I walked through the tutorials
  • [x ] I checked the documentation
  • [ x] I checked to make sure that this is not a duplicate question

您好。我想尝试微调关于剧本的llama 使用的Lora。我看到指令精调使用数据模板是 { "instruction": "", "input": "", "output": "" } 我的原始数据类似下面这种: 一些环境描述和背景描述。 旁白:旁白说的话1. 角色1:角色1的话1. (角色情绪和动作) 角色2:角色2的话1. (角色情绪和动作) xxxx

如果是这样的话,想请教一下应该怎么样处理源数据到模板数据会比较合适。非常感谢

kostya-sec avatar May 28 '23 09:05 kostya-sec

多轮对话数据集和角色扮演数据,我稍后给个示例,一般来说是把人物加对白拼接起来当做上下文处理。

shibing624 avatar May 28 '23 16:05 shibing624

多轮对话数据集和角色扮演数据,我稍后给个示例,一般来说是把人物加对白拼接起来当做上下文处理。

非常感谢

kostya-sec avatar May 29 '23 11:05 kostya-sec

多轮对话数据集和角色扮演数据,我稍后给个示例,一般来说是把人物加对白拼接起来当做上下文处理。

期待来个多轮对话的示例数据,顺便问一下大佬,lora多轮对话微调效果如何?想做一下lora的多轮对话微调

Godlikemandyy avatar Jun 06 '23 08:06 Godlikemandyy

This issue has been automatically marked as stale because it has not had recent activity. It will be closed if no further activity occurs. Thank you for your contributions.(由于长期不活动,机器人自动关闭此问题,如果需要欢迎提问)

stale[bot] avatar Dec 27 '23 07:12 stale[bot]