chatglm_finetuning icon indicating copy to clipboard operation
chatglm_finetuning copied to clipboard

关于数据格式

Open sanwei111 opened this issue 1 year ago • 6 comments

data路径下,有两个py文件,其中一个是把alpaca转为qa:比如:{"id": 1, "paragraph": [{"q": "下面是一个指令,描述了一个任务。编写适当的输出完成请求。\n\n### 指令:\n给出三个保持健康的提示。\n\n### 响应:", "a": ["1.饮食要均衡,确保包括足够的水果和蔬菜。\n2.定期运动以保持身体活跃和强壮。\n3.保持充足的睡眠并保持一致的睡眠时间表。"]}]}

我想问,你给出的例子中是没有——下面是一个指令,描述了一个任务。编写适当的输出完成请求以及\n\n###这些符号,想问问要用哪个数据格式???

sanwei111 avatar May 16 '23 05:05 sanwei111

两种数据最终都要转成 qa , 也就是两种数据内容形式都可以, 数据结构是qa 即可。

ssbuild avatar May 16 '23 06:05 ssbuild

格式1:{"id": 1, "paragraph": [{"q": "下面是一个指令,描述了一个任务。编写适当的输出完成请求。\n\n### 指令:\n给出三个保持健康的提示。\n\n### 响应:", "a": ["1.饮食要均衡,确保包括足够的水果和蔬菜。\n2.定期运动以保持身体活跃和强壮。\n3.保持充足的睡眠并保持一致的睡眠时间表。"]}]}

格式2:| | | ------------------------------------------------------------ | | {"id": 1, "paragraph": [{"q": "从南京到上海的路线", "a": ["你好,南京到上海的路线如下:", "1. 南京到上海,可以乘坐南京地铁1号线,在南京站乘坐轨道交通1号线。", "2. 南京到浦东机场,可以搭乘上海地铁1号,在陆家嘴站乘坐地铁1线,在浦东国际机场站乘坐机场快线,前往上海浦东国际机场。", "3. 上海到南京,可以换乘上海地铁2号线,从南京站换乘地铁2线,再从南京南站换乘地铁1路,然后到达上海站"]}]} |

意思是这两种都可?说白了区别就是多了一些提示词

sanwei111 avatar May 16 '23 06:05 sanwei111

是的。

ssbuild avatar May 16 '23 06:05 ssbuild

不好意思,还是想问一下。我用alpaca2qa.py把alpaca的数据集转成所需格式。比如:{ "instruction": "给出三个保持健康的提示。", "input": "", "output": "1.饮食要均衡,确保包括足够的水果和蔬菜。\n2.定期运动以保持身体活跃和强壮。\n3.保持充足的睡眠并保持一致的睡眠时间表。" },转成 {"id": 1, "paragraph": [{"q": "下面是一个指令,描述了一个任务。编写适当的输出完成请求。\n\n### 指令:\n给出三个保持健康的提示。\n\n### 响应:", "a": ["1.饮食要均衡,确保包括足够的水果和蔬菜。\n2.定期运动以保持身体活跃和强壮。\n3.保持充足的睡眠并保持一致的睡眠时间表。"]}]}

有两个问题: 1.你的readnme那里给出的语料例子长这个样子的: {"id": 1, "paragraph": [{"q": "从南京到上海的路线", "a": ["你好,南京到上海的路线如下:", "1. 南京到上海,可以乘坐南京地铁1号线,在南京站乘坐轨道交通1号线。", "2. 南京到浦东机场,可以搭乘上海地铁1号,在陆家嘴站乘坐地铁1线,在浦东国际机场站乘坐机场快线,前往上海浦东国际机场。", "3. 上海到南京,可以换乘上海地铁2号线,从南京站换乘地铁2线,再从南京南站换乘地铁1路,然后到达上海站"]}]} |——为什么没有诸如“下面是一个指令,描述了一个任务。编写适当的输出完成请求。\n\n### 指令:\n”这些? 2.如果我的问答是英文语料怎么办?转换之后是这样可以吗——{"id": 199, "paragraph": [{"q": "下面是一个指令,描述了一个任务,搭配一个输入,提供进一步的上下文。编写适当的输出完成请求。\n\n### 指令:\nCreate a list of pros and cons.\n\n### 请求:\nMaintaining a blog\n\n### 响应:", "a": ["Pros: \n- Improved visibility and branding \n- Opportunities to share information\n- Boosts creativity\n- Increased website traffic\n\nCons:\n- Time consuming\n- Requires consistency\n- Can be expensive to maintain"]}]}

sanwei111 avatar May 16 '23 08:05 sanwei111

  1. 语料只是给了一个数据格式 , 也给了第三方数据链接。
  2. 英文可以参考 https://github.com/tatsu-lab/stanford_alpaca

ssbuild avatar May 16 '23 08:05 ssbuild

1.所以按着alpaca2qa.py文件转出来的中文语料是可以用的?:{"id": 1, "paragraph": [{"q": "下面是一个指令,描述了一个任务。编写适当的输出完成请求。\n\n### 指令:\n给出三个保持健康的提示。\n\n### 响应:", "a": ["1.饮食要均衡,确保包括足够的水果和蔬菜。\n2.定期运动以保持身体活跃和强壮。\n3.保持充足的睡眠并保持一致的睡眠时间表。"]}]} 2.好的呢!谢谢老哥

sanwei111 avatar May 16 '23 08:05 sanwei111