ChatGLM-6B icon indicating copy to clipboard operation
ChatGLM-6B copied to clipboard

请问怎么构建属于自己的数据集,或者CLM可以训练的数据集

Open PopRangR opened this issue 2 years ago • 13 comments
trafficstars

Is there an existing issue for this?

  • [X] I have searched the existing issues

Current Behavior

自己按照官方提供的数据集格式,编写了十几条问答数据训练完成之后一点效果没有,想问问大家是怎么实现的

Expected Behavior

No response

Steps To Reproduce

自己按照官方提供的数据集格式,编写了十几条问答数据训练完成之后一点效果没有,想问问大家是怎么实现的

Environment

- OS:
- Python:
- Transformers:
- PyTorch:
- CUDA Support (`python -c "import torch; print(torch.cuda.is_available())"`) :

Anything else?

No response

PopRangR avatar Apr 19 '23 06:04 PopRangR

步数不够。

cywjava avatar Apr 19 '23 08:04 cywjava

请问步数不够是啥意思,是数据太少吗

PopRangR avatar Apr 19 '23 08:04 PopRangR

步数不够。

请问步骤数不够是啥意思,是数据太少吗

PopRangR avatar Apr 19 '23 08:04 PopRangR

步数不够。

请问步骤数不够是啥意思,是数据太少吗

这种类型的模型训练时,一般都是多少步后保存1次“存档”或者“成绩”到多少后,保存存档并退出训练。 使用时,载入“存档”的模型,然后进行推理。

可以理解为数据太少。

mingyue0094 avatar Apr 19 '23 18:04 mingyue0094

你好,我是AI小白,也正在研究这些。 求教,有啥官方的文档,可以指导我训练自己的模型。大概做成一个私有的数据集,公司内部数据。

ysun avatar Apr 20 '23 01:04 ysun

步数不够。

请问步骤数不够是什么意思,是数据太少吗

这种类型的模型训练时,一般都是多少步后保存1次“保存档”或“成绩”到多少后,保存保存档并退出训练。进行推理 。

可以理解为数据太少。

好的,谢谢,请问目前有没有除了 ADGEN 数据集还有别的数据集可以跑的

PopRangR avatar Apr 20 '23 02:04 PopRangR

你好,我是AI小白,也在研究这些。 求教,有什么官方的文档,可以指导我训练自己的模型。大概念做一个私有的数据集,公司满意。

我也刚接触,不是很清楚

PopRangR avatar Apr 20 '23 02:04 PopRangR

你好,我是AI小白,也正在研究这些。 求教,有啥官方的文档,可以指导我训练自己的模型。大概做成一个私有的数据集,公司内部数据。

https://github.com/THUDM/ChatGLM-6B/tree/main/ptuning

fireice009 avatar Apr 21 '23 04:04 fireice009

@ysun 大家有办法创造自己的私有训练集吗?

eeric avatar Apr 21 '23 06:04 eeric

我也是看到 @fireice009 的那个链接了,想着找时间试下,看看能否微调下数据集。 还没开始呢~~

ysun avatar Apr 21 '23 07:04 ysun

就参考 ADGEN 的格式(一个 JSON 数组,每个记录包含至少一个 Q 字段和一个 A 字段,字段名可以自定义)做就行。但对数量还是有一定的要求。太少了肯定不行。

lucifer1004 avatar Apr 21 '23 08:04 lucifer1004

是的,如果能有自动从文本中生成准确的问答,将是更好的方法。

eeric avatar Apr 21 '23 08:04 eeric

是的,如果能有自动从文本中生成准确的问答,将是更好的方法。

高质量的 问答 。还是得自己人员,人工。

很多类似 ChatGLM-6B 这样的模型是无商业许可的。特别针对与 openai 提供的服务有“竞争”的商业,是违反许可的。研究、体验是不违反。。。 原因是,用于模型训练的问答数据集的问题或者答案。是有 openai 的chatgpt生成的。模型训练完成后,在使用时是受到许可限制的。 所以, 有个dolly-v2-12b项目。就自己人工生成了数据集(人工洗稿),以此规避这一限制。

mingyue0094 avatar Apr 21 '23 15:04 mingyue0094

可参考#330中提到的方法。

zhangch9 avatar Aug 16 '23 10:08 zhangch9

怎么训练自己的模型,而不是微调? 建立私有数据集进行训练,针对特殊场景

SERE026 avatar Nov 28 '23 17:11 SERE026