ChatGLM-6B [Feature] 请教在领域语料上训练的步骤

Is your feature request related to a problem? Please describe.

如果有领域上的纯文本语料，想得到某个领域的chatglm，不知可以通过什么步骤来做？

Solutions

是 1）用GLM先进行pretrain，得到领域GLM，然后用指令微调训练集对领域GLM进行微调吗？这样等于ChatGLM的工作得重做了。 2）还是要用这些纯文本自行生成指令微调训练集来微调？如果是，该怎么生成？ 3）还是用ChatGLM本身就可以用这些文本来pretrain?

谢谢指点！

Additional context

No response

Apr 02 '23 01:04 calvinzhan

前天添加的ptuning应当符合你的需求吧 https://github.com/THUDM/ChatGLM-6B/blob/main/ptuning/README.md

{
    "content": "类型#上衣*版型#宽松*版型#显瘦*图案#线条*衣样式#衬衫*衣袖型#泡泡袖*衣款式#抽绳",
    "summary": "这件衬衫的款式非常的宽松，利落的线条可以很好的隐藏身材上的小缺点，穿在身上有着很好的显瘦效果。领口装饰了一个可爱的抽绳，漂亮的绳结展现出了十足的个性，配合时尚的泡泡袖型，尽显女性甜美可爱的气息。"
}

Apr 02 '23 03:04 wywzxxz

前天添加的ptuning应当符合你的需求吧 https://github.com/THUDM/ChatGLM-6B/blob/main/ptuning/README.md

{
    "content": "类型#上衣*版型#宽松*版型#显瘦*图案#线条*衣样式#衬衫*衣袖型#泡泡袖*衣款式#抽绳",
    "summary": "这件衬衫的款式非常的宽松，利落的线条可以很好的隐藏身材上的小缺点，穿在身上有着很好的显瘦效果。领口装饰了一个可爱的抽绳，漂亮的绳结展现出了十足的个性，配合时尚的泡泡袖型，尽显女性甜美可爱的气息。"
}

如果要形成公司内部的问答模型，问一些公司内部的政策文件，可以用这种模式训练吗，还是说应该有个问答的专门的训练集和训练方法？

Apr 02 '23 06:04 luieswww

前天添加的ptuning应当符合你的需求吧 https://github.com/THUDM/ChatGLM-6B/blob/main/ptuning/README.md

{
    "content": "类型#上衣*版型#宽松*版型#显瘦*图案#线条*衣样式#衬衫*衣袖型#泡泡袖*衣款式#抽绳",
    "summary": "这件衬衫的款式非常的宽松，利落的线条可以很好的隐藏身材上的小缺点，穿在身上有着很好的显瘦效果。领口装饰了一个可爱的抽绳，漂亮的绳结展现出了十足的个性，配合时尚的泡泡袖型，尽显女性甜美可爱的气息。"
}

@wywzxxz 这个我看到了。这个应该是finetune的方法，还是需要人工构造输入和输出。训练集数量不会太大。不知有没有直接在纯文本上进行自监督训练的方法和步骤。这样就可以利用海量的领域语料了。

我理解GLM应该是有这种训练方式，但是chatglm所做的指令微调工作是不是就得重做了？

Apr 02 '23 12:04 calvinzhan

@luieswww 我这边类似的使用场景有测试过非微调的解决方案主要是基于本地文档的问答，可以参考 langchain-ChatGLM 好处是不需要再做训练，局限性是文本分段、匹配如果效果不好会影响回答效果。

Apr 02 '23 12:04 imClumsyPanda

chatllama是这么训练的，中间的那步可以借鉴来在领域语料上训练。我是想达到这样的目的，不知能否在保留chat的能力上达到？

chatllama

Apr 02 '23 12:04 calvinzhan

前天添加的ptuning应当符合你的需求吧 https://github.com/THUDM/ChatGLM-6B/blob/main/ptuning/README.md
{
    "content": "类型#上衣*版型#宽松*版型#显瘦*图案#线条*衣样式#衬衫*衣袖型#泡泡袖*衣款式#抽绳",
    "summary": "这件衬衫的款式非常的宽松，利落的线条可以很好的隐藏身材上的小缺点，穿在身上有着很好的显瘦效果。领口装饰了一个可爱的抽绳，漂亮的绳结展现出了十足的个性，配合时尚的泡泡袖型，尽显女性甜美可爱的气息。"
}
如果要形成公司内部的问答模型，问一些公司内部的政策文件，可以用这种模式训练吗，还是说应该有个问答的专门的训练集和训练方法？

@luieswww 我也是这种需求，感觉如果靠构建上面的数据集，人工工作量貌似很大。

Apr 02 '23 14:04 calvinzhan

前天添加的ptuning应当符合你的需求吧 https://github.com/THUDM/ChatGLM-6B/blob/main/ptuning/README.md
{
    "content": "类型#上衣*版型#宽松*版型#显瘦*图案#线条*衣样式#衬衫*衣袖型#泡泡袖*衣款式#抽绳",
    "summary": "这件衬衫的款式非常的宽松，利落的线条可以很好的隐藏身材上的小缺点，穿在身上有着很好的显瘦效果。领口装饰了一个可爱的抽绳，漂亮的绳结展现出了十足的个性，配合时尚的泡泡袖型，尽显女性甜美可爱的气息。"
}
@wywzxxz 这个我看到了。这个应该是finetune的方法，还是需要人工构造输入和输出。训练集数量不会太大。不知有没有直接在纯文本上进行自监督训练的方法和步骤。这样就可以利用海量的领域语料了。

我理解GLM应该是有这种训练方式，但是chatglm所做的指令微调工作是不是就得重做了？

我最近也在想这个问题，因为我有一张超大的表格想输入到chatglm中，同时保有其逻辑能力不变。根据我的调查，目前有两种现成的方式：

LORA，冻结原模型，并行添加一个秩分解矩阵。详情见此：https://zhuanlan.zhihu.com/p/611557340
langchain，根据输入检索出相关信息作为输入贴给模型。虽然制约了能力，但不需要重新训练。详情见此：https://github.com/hwchase17/langchain

Apr 03 '23 16:04 wywzxxz

直接进行，题主的2和3点，是可以的。