ChatGLM-6B 请问怎么构建属于自己的数据集，或者CLM可以训练的数据集

trafficstars

Is there an existing issue for this?

[X] I have searched the existing issues

Current Behavior

自己按照官方提供的数据集格式，编写了十几条问答数据训练完成之后一点效果没有，想问问大家是怎么实现的

Expected Behavior

No response

Steps To Reproduce

自己按照官方提供的数据集格式，编写了十几条问答数据训练完成之后一点效果没有，想问问大家是怎么实现的

Environment

- OS:
- Python:
- Transformers:
- PyTorch:
- CUDA Support (`python -c "import torch; print(torch.cuda.is_available())"`) :

Anything else?

No response

Apr 19 '23 06:04 PopRangR

步数不够。

Apr 19 '23 08:04 cywjava

请问步数不够是啥意思，是数据太少吗

Apr 19 '23 08:04 PopRangR

步数不够。

请问步骤数不够是啥意思，是数据太少吗

Apr 19 '23 08:04 PopRangR

步数不够。

请问步骤数不够是啥意思，是数据太少吗

这种类型的模型训练时，一般都是多少步后保存1次“存档”或者“成绩”到多少后，保存存档并退出训练。使用时，载入“存档”的模型，然后进行推理。

可以理解为数据太少。

Apr 19 '23 18:04 mingyue0094

你好，我是AI小白，也正在研究这些。求教，有啥官方的文档，可以指导我训练自己的模型。大概做成一个私有的数据集，公司内部数据。

Apr 20 '23 01:04 ysun

步数不够。

请问步骤数不够是什么意思，是数据太少吗

这种类型的模型训练时，一般都是多少步后保存1次“保存档”或“成绩”到多少后，保存保存档并退出训练。进行推理。

可以理解为数据太少。

好的，谢谢，请问目前有没有除了 ADGEN 数据集还有别的数据集可以跑的

Apr 20 '23 02:04 PopRangR

你好，我是AI小白，也在研究这些。求教，有什么官方的文档，可以指导我训练自己的模型。大概念做一个私有的数据集，公司满意。

我也刚接触，不是很清楚

Apr 20 '23 02:04 PopRangR

你好，我是AI小白，也正在研究这些。求教，有啥官方的文档，可以指导我训练自己的模型。大概做成一个私有的数据集，公司内部数据。

https://github.com/THUDM/ChatGLM-6B/tree/main/ptuning

Apr 21 '23 04:04 fireice009

@ysun 大家有办法创造自己的私有训练集吗？

Apr 21 '23 06:04 eeric

我也是看到 @fireice009 的那个链接了，想着找时间试下，看看能否微调下数据集。还没开始呢~~

Apr 21 '23 07:04 ysun

就参考 ADGEN 的格式（一个 JSON 数组，每个记录包含至少一个 Q 字段和一个 A 字段，字段名可以自定义）做就行。但对数量还是有一定的要求。太少了肯定不行。

Apr 21 '23 08:04 lucifer1004

是的，如果能有自动从文本中生成准确的问答，将是更好的方法。

Apr 21 '23 08:04 eeric

是的，如果能有自动从文本中生成准确的问答，将是更好的方法。

高质量的问答。还是得自己人员，人工。

很多类似 ChatGLM-6B 这样的模型是无商业许可的。特别针对与 openai 提供的服务有“竞争”的商业，是违反许可的。研究、体验是不违反。。。原因是，用于模型训练的问答数据集的问题或者答案。是有 openai 的chatgpt生成的。模型训练完成后，在使用时是受到许可限制的。所以，有个dolly-v2-12b项目。就自己人工生成了数据集(人工洗稿)，以此规避这一限制。

Apr 21 '23 15:04 mingyue0094

可参考#330中提到的方法。

Aug 16 '23 10:08 zhangch9

怎么训练自己的模型，而不是微调？建立私有数据集进行训练，针对特殊场景

Nov 28 '23 17:11 SERE026

ChatGLM-6B ChatGLM-6B copied to clipboard

请问怎么构建属于自己的数据集，或者CLM可以训练的数据集

Is there an existing issue for this?

Current Behavior

Expected Behavior

Steps To Reproduce

Environment

Anything else?

ChatGLM-6B
ChatGLM-6B copied to clipboard