liyunhan

Results 21 comments of liyunhan

> > token_ids, segment_ids = tokenizer.encode(d['text'], maxlen=maxlen) 这句代码中返回值中的segment_ids,我分析了一下源码,大概是这个意思,句子A和句子B分隔符,句子A对应的全为0,句子B对应的全为1。但是不知道有什么用,可能我问的问题比较肤浅(´・_・`),之前用huggingface里面的bert,返回值貌似是没有这项的。 > > bert的返回值是没有的,bert的输入值有啊,这就是bert自带的设计,初衷是想要区分两个拼接的句子。 请问苏神bert4keras最高就支持tensorflow2.3以下版本吗

@waynetest2024 我想知道您微调多大的模型,多少数据大概用了多久? 我1W的训练数据,LoRA微调qwen1.5-32b-chat在A6000上慢的要死....batch我设置的16,一个batch就恨不得一分钟

@ninehills 您好,请问: 1. 行业知识问答中,用户问题口语化严重,但是知识库专业名词偏多,这种情况BM25和BGE选择哪个更好? 2. 如果微调的话,数据是不是也要准备很多口语化的“问题”

> 这种情况可以用HyDE 方法。 使用一个快速模型(如gpt-3.5-turbo或者自托管的10B以内模型),对query进行直接回答(可以指令要求简短回答)。 然后对回答进行embedding ,用回答来检索文档。 这个模型如果在行业知识上post-pretain或者sft就更好了。 > […](#) > On Fri, Apr 26, 2024 at 15:57 liyunhan ***@***.***> wrote: @ninehills 您好,请问: 1. 行业知识问答中,用户问题口语化严重,但是知识库专业名词偏多,这种情况BM25和BGE选择哪个更好? 2. 如果微调的话,数据是不是也要准备很多口语化的“问题” — Reply to this...

@ninehills 谢谢您,还想请教您在检索中怎么先做一次信息过滤呢?比如很多无关的内容我希望直接过滤掉,缩小检索范围、提升检索精度

你这个不是GLM的问题,是RAG多轮问答的问题了...比较直接的就是query改写吧,把当前问句和之前的聊天记录塞给glm,让他改写当前问句

@gggdroa 效果怎么样?我们也涉及这个问题,但是还没尝试

@gggdroa 之前在知乎上看过一篇文章,那个作者是判断当前query和上一句或上几句是否属于一个问答chunk(大概是NSP的思路),即将历史记录分块,同属一个chunk的拿去做改写。

@gggdroa 那个作者后续没有用改写,他工程应用对速度有要求,所以是同属一个chunk的用去训练query embedding。 但是如果没有时间上的要求,分chunk以后去改写应该能大幅缩减历史长度和记忆衰减的问题。

> > @gggdroa 那个作者后续没有用改写,他工程应用对速度有要求,所以是同属一个chunk的用去训练query embedding。 但是如果没有时间上的要求,分chunk以后去改写应该能大幅缩减历史长度和记忆衰减的问题。 > > 对的,自己demo的话可以尝试,但应用对速度有要求。 个人感觉多文档考验的不止这些,广泛的信息整合、纠错、检查错误等等······· 我的感受是模型越大后处理的越少,有些时候知识库检索到的东西直接一股脑丢给模型,他能自己做筛选、整合等等