cywjava

Results 91 comments of


                                            cywjava

[BUG/Help] <通过广告词训练之后感觉其他的回答认知出现了问题~>

> > > > > > > 这是正常的因为我微调后也这样了 > > > > > > 这显然不正常。 > > > > > > > > > > > > 如果你理解ptuning在干什么，这显然正常。本来一个对话模型，现在把输入变成非流畅文本，每层还额外加入prompt，怎么可能保留之前的能力。...

多gpu如何训练？预测是可以的，但是训练不行

看我的。https://github.com/chenyiwan/chatglm-6b-fine-tuning

chatglm-int4 web_demo.py页面能加载出来但是输入你好 chatglm-6b一直没有回答

主要是内存，需要32G内存，CPU吃不满。但这个模式下非常慢。

微调后，测试问答生成，确实能回答我给他学习的内容，但后面会追加很多其它文本这要怎么解决？

> 最大文本长度调到128试试 128，岂不是连我自己的标准答案都被它给截断了啊。。

微调后，测试问答生成，确实能回答我给他学习的内容，但后面会追加很多其它文本这要怎么解决？

> 同问，能给一下你的训练数据示例以及你的训练参数吗我用的lora 微调，数据是自己造的alpaca 数据

微调后，测试问答生成，确实能回答我给他学习的内容，但后面会追加很多其它文本这要怎么解决？

> 我自己用lora调感觉效果也是不符合预期，用英文alpaca数据加一些中文自定义数据，英文能力有提升，譬如很少中英混杂，但是中文问题就没太学进去，比如，Q：你是谁 A：我是XXX，这个回答还是原来的。训练的步数太少了。

[Help] 训练数据必须一问一答吗，能不能喂跑团记录那种一长串的数据？

自己弄成多轮对话。

我想做这样一件事，不知道是否可以

想过通过过滤问题的方式，在上层应用添加一个过滤器，非微调数据，就直接返回，但感觉太low了。。

请问怎么构建属于自己的数据集，或者CLM可以训练的数据集

步数不够。

[BUG/Help] <词表替换>

你怎么加进去呢？

‹
1
2
3
4
5
6
7
8
9
10
›