FlagEmbedding icon indicating copy to clipboard operation
FlagEmbedding copied to clipboard

微调数据集构建

Open dddddjcole opened this issue 1 year ago • 6 comments

你好,请问我现在有很多正样本,很少量的负样本。其中有一个问题是,我的正样本很多都是可以通过正则化获得,不需要用向量检索,我是用向量更多想对语义信息进行一个补充,请问想要做到这种效果,该怎么构建数据集。 目前已经跑了一轮微调,发现不仅负样本离得更远了,正样本也跟着更远了。

dddddjcole avatar Dec 06 '23 03:12 dddddjcole

微调使用的是对比学习,学习的是排序关系,不建议只依靠相似度变化来判断微调之后模型的好坏。可以看看正样本的排序位置的变化,计算排序指标MRR,recall等。

staoxiao avatar Dec 06 '23 08:12 staoxiao

谢谢您的回答,我这边数据出现很多部分字重叠,但其实那部分字在整个关键词中是不重要的,导致相似度很高,这部分我该做什么优化,目前我采用用gpt辅助标注,正样本和负样本,再进行训练。我需要训练那个重排序的那个模块吗,还是对模型进行一个微调。

dddddjcole avatar Dec 12 '23 10:12 dddddjcole

可以把这些不重要词重叠的样本加到neg里作为难负样本,进行微调。

staoxiao avatar Dec 12 '23 13:12 staoxiao

你好,目前微调发现模型对一些我关注的词并不敏感,微调以后对一些样例有改变,但是感觉学习不到语义上规律,遇到类似的检索词,还是会犯同样的错误,微调使用数据集质量也很难把控,词的覆盖面也不够(不能穷尽),是否可以通过增量预训练来解决这一问题,如果可以的话,数据集上面有什么建议吗,

dddddjcole avatar Jan 04 '24 07:01 dddddjcole

搭车问一个问题,微调数据集的格式为{"query": str, "pos": List[str], "neg":List[str]},下载了智源的训练bge embedding的数据集,如 {'query': '很差的一本书', 'pos': ['很差的一本书,内容空泛,有的章节还文不对题' ], 'neg': ['冲着这个牌子一贯的高颜值,在特价时入手一两个还是极好的,吸管杯大小合适一岁宝宝开始自己拿,不过不经摔和图案掉漆是硬伤,喜欢这个牌子的可以姑且买之,价格合适时推荐。亚马逊正品保真,送货快,比自己海淘方便划算', '偏大,不是很满意,中间那段还是类似松紧带。', '质量不错…不过还没上身试…不知道上身效果如何…', '好像是姚老师上课的讲稿,非常通俗生动,十分有趣,文科小白也觉得压力不大。我想所谓大家可能就是这样吧,做人深藏不露,叙事深入浅出,从不会没事儿抖个机灵、掉个书袋。', '鞋子穿了不到两周,鞋底的logo脱落,找售后说超过规定时间不退不换,跟亚瑟士官方联系,竟然我回复我不影响使用,不予退换,我日了狗了,你们嚣张,我就这里发发牢骚', '电镀漆的效果一般,做工质量粗糙程度一般而已', '申请了退货还发货,找不到联系人,以后还是不来买了', '砂比较细腻,不会伤到脸,用完以后脸滑滑的,还是不错的', '书从管理的多维度,对建筑建设过程中的管理,做了系统性的介绍。', '因为工作的需要购买的,书是正版。质量好,有需要教材的亲可以考虑购买。' ]},这里面有两个点不太明白,一是关于query,按照RAG场景下使用的情况,这个query应该是个问句,如“这本书怎么样?“,但在下载下来的数据集中,这个query是个陈述句;二是落地到具体某一个业务场景(如法律或其他等)的时候,这个微调数据集如何构建,业务场景的数据就是一大堆质量较好的文档,如何根据这些文档构建query、pos、neg,以微调模型学到场景的embedding?

amutong avatar Jan 22 '24 09:01 amutong

搭车问一个问题,微调数据集的格式为{"query": str, "pos": List[str], "neg":List[str]},下载了智源的训练bge embedding的数据集,如 {'query': '很差的一本书', 'pos': ['很差的一本书,内容空泛,有的章节还文不对题' ], 'neg': ['冲着这个牌子一贯的高颜值,在特价时入手一两个还是极好的,吸管杯大小合适一岁宝宝开始自己拿,不过不经摔和图案掉漆是硬伤,喜欢这个牌子的可以姑且买之,价格合适时推荐。亚马逊正品保真,送货快,比自己海淘方便划算', '偏大,不是很满意,中间那段还是类似松紧带。', '质量不错…不过还没上身试…不知道上身效果如何…', '好像是姚老师上课的讲稿,非常通俗生动,十分有趣,文科小白也觉得压力不大。我想所谓大家可能就是这样吧,做人深藏不露,叙事深入浅出,从不会没事儿抖个机灵、掉个书袋。', '鞋子穿了不到两周,鞋底的logo脱落,找售后说超过规定时间不退不换,跟亚瑟士官方联系,竟然我回复我不影响使用,不予退换,我日了狗了,你们嚣张,我就这里发发牢骚', '电镀漆的效果一般,做工质量粗糙程度一般而已', '申请了退货还发货,找不到联系人,以后还是不来买了', '砂比较细腻,不会伤到脸,用完以后脸滑滑的,还是不错的', '书从管理的多维度,对建筑建设过程中的管理,做了系统性的介绍。', '因为工作的需要购买的,书是正版。质量好,有需要教材的亲可以考虑购买。' ]},这里面有两个点不太明白,一是关于query,按照RAG场景下使用的情况,这个query应该是个问句,如“这本书怎么样?“,但在下载下来的数据集中,这个query是个陈述句;二是落地到具体某一个业务场景(如法律或其他等)的时候,这个微调数据集如何构建,业务场景的数据就是一大堆质量较好的文档,如何根据这些文档构建query、pos、neg,以微调模型学到场景的embedding?

amutong avatar Jan 22 '24 09:01 amutong