Results 78 comments of suc16

好像transformers刚merge了多卡并行LoRa的LLaMa训练代码 https://github.com/huggingface/transformers/pull/22329 @mymusise 大佬看看

> > > > > 这是正常的 因为我微调后也这样了 > > > > > 这显然不正常。 > > > > > > > > > 如果你理解ptuning在干什么,这显然正常。 本来一个对话模型,现在把输入变成非流畅文本,每层还额外加入prompt,怎么可能保留之前的能力。 如果你需要保留对话能力,肯定要把输入指令全部改写成人话,并且用lora的方式仅微调q、v来减少影响。我理解ptuning这种引入额外结构的根本不适用在这种场景下。 > > > > >...

> > > > > > > 这是正常的 因为我微调后也这样了 > > > > > > > 这显然不正常。 > > > > > > > > > > > > >...

> > @songsa1 推荐友情链接里的 chatglm-tuning > > 请问,你用过lora跑过 这个广告数据集么, 肯定没啊。。。不过lora也会有复读机情况发生。

langchain方式其实是拓展性最高的,只要在本地知识库加内容就行,实时加知识。 不过这种方式目前看有2个劣势: 匹配返回topk,知识库不全的话,匹配的内容完全不相关。 多轮对话,好像不太自然。

> 数据清洗是免不了的,即使你用 p-tuning或者lora也是一样的问题,只不过问毫不相关的问题时,不会出本地知识库的结果。可以在prompt里加些限制,比如告诉LLM,“如果无法从参考资料中得到答案,请忽略参考资料。”

> > > @tutuxxx 可以参考 ChatGLM-6B 模型项目本身的 README,其中有[关于 Tuning 的部分](https://github.com/THUDM/ChatGLM-6B#%E5%8F%8B%E6%83%85%E9%93%BE%E6%8E%A5) > > > > > > 显存确实不高,但是好慢呀 > > ![image](https://user-images.githubusercontent.com/14323022/229737746-389dd307-b3b3-4651-ac43-7517837d72e6.png) 三个P40,三条数据,微调搞了两个半小时 官方的p-tuning吗?

> > > > > @tutuxxx 可以参考 ChatGLM-6B 模型项目本身的 README,其中有[关于 Tuning 的部分](https://github.com/THUDM/ChatGLM-6B#%E5%8F%8B%E6%83%85%E9%93%BE%E6%8E%A5) > > > > > > > > > > > > 显存确实不高,但是好慢呀 > > > > >...

> 有没有尝试过用Agent来实现,Agent可以做到多轮对话,若是涉及到本地知识库的,用tools询问本地vector store,将获取的上下文信息放入prompt中让LLM回答? > > 我用openai embedding+gpt-3.5-turbo试过,可行,不过困难的是让LLM判断是否需要agent来完成一次问答。 就是说如果不涉及到本地知识库的就让gpt-3.5正常交互,如果涉及到的把检索到的信息补充进prompt?那怎么判断是不是涉及到本地知识库呢,检索的步骤是少不了的吧。然后其实用chatglm应该也能做到和gpt3.5类似的效果?