amutong
amutong
搭车问一个问题,微调数据集的格式为{"query": str, "pos": List[str], "neg":List[str]},下载了智源的训练bge embedding的数据集,如 {'query': '很差的一本书', 'pos': ['很差的一本书,内容空泛,有的章节还文不对题' ], 'neg': ['冲着这个牌子一贯的高颜值,在特价时入手一两个还是极好的,吸管杯大小合适一岁宝宝开始自己拿,不过不经摔和图案掉漆是硬伤,喜欢这个牌子的可以姑且买之,价格合适时推荐。亚马逊正品保真,送货快,比自己海淘方便划算', '偏大,不是很满意,中间那段还是类似松紧带。', '质量不错…不过还没上身试…不知道上身效果如何…', '好像是姚老师上课的讲稿,非常通俗生动,十分有趣,文科小白也觉得压力不大。我想所谓大家可能就是这样吧,做人深藏不露,叙事深入浅出,从不会没事儿抖个机灵、掉个书袋。', '鞋子穿了不到两周,鞋底的logo脱落,找售后说超过规定时间不退不换,跟亚瑟士官方联系,竟然我回复我不影响使用,不予退换,我日了狗了,你们嚣张,我就这里发发牢骚', '电镀漆的效果一般,做工质量粗糙程度一般而已', '申请了退货还发货,找不到联系人,以后还是不来买了', '砂比较细腻,不会伤到脸,用完以后脸滑滑的,还是不错的', '书从管理的多维度,对建筑建设过程中的管理,做了系统性的介绍。', '因为工作的需要购买的,书是正版。质量好,有需要教材的亲可以考虑购买。' ]},这里面有两个点不太明白,一是关于query,按照RAG场景下使用的情况,这个query应该是个问句,如“这本书怎么样?“,但在下载下来的数据集中,这个query是个陈述句;二是落地到具体某一个业务场景(如法律或其他等)的时候,这个微调数据集如何构建,业务场景的数据就是一大堆质量较好的文档,如何根据这些文档构建query、pos、neg,以微调模型学到场景的embedding?
搭车问一个问题,微调数据集的格式为{"query": str, "pos": List[str], "neg":List[str]},下载了智源的训练bge embedding的数据集,如 {'query': '很差的一本书', 'pos': ['很差的一本书,内容空泛,有的章节还文不对题' ], 'neg': ['冲着这个牌子一贯的高颜值,在特价时入手一两个还是极好的,吸管杯大小合适一岁宝宝开始自己拿,不过不经摔和图案掉漆是硬伤,喜欢这个牌子的可以姑且买之,价格合适时推荐。亚马逊正品保真,送货快,比自己海淘方便划算', '偏大,不是很满意,中间那段还是类似松紧带。', '质量不错…不过还没上身试…不知道上身效果如何…', '好像是姚老师上课的讲稿,非常通俗生动,十分有趣,文科小白也觉得压力不大。我想所谓大家可能就是这样吧,做人深藏不露,叙事深入浅出,从不会没事儿抖个机灵、掉个书袋。', '鞋子穿了不到两周,鞋底的logo脱落,找售后说超过规定时间不退不换,跟亚瑟士官方联系,竟然我回复我不影响使用,不予退换,我日了狗了,你们嚣张,我就这里发发牢骚', '电镀漆的效果一般,做工质量粗糙程度一般而已', '申请了退货还发货,找不到联系人,以后还是不来买了', '砂比较细腻,不会伤到脸,用完以后脸滑滑的,还是不错的', '书从管理的多维度,对建筑建设过程中的管理,做了系统性的介绍。', '因为工作的需要购买的,书是正版。质量好,有需要教材的亲可以考虑购买。' ]},这里面有两个点不太明白,一是关于query,按照RAG场景下使用的情况,这个query应该是个问句,如“这本书怎么样?“,但在下载下来的数据集中,这个query是个陈述句;二是落地到具体某一个业务场景(如法律或其他等)的时候,这个微调数据集如何构建,业务场景的数据就是一大堆质量较好的文档,如何根据这些文档构建query、pos、neg,以微调模型学到场景的embedding?
> 谢谢回答,请问有什么好的大模型(内网环境,ChatGPT除外)可以根据文章生成问题和答案吗?
> 这块我们没有太多经验,可以在开源社区选几个模型试试。 > 开源社区有一些方案可以参考:https://docs.llamaindex.ai/en/stable/examples/finetuning/embeddings/finetune_embedding.html 好的,谢谢大佬
> > > 谢谢回答,请问有什么好的大模型(内网环境,ChatGPT除外)可以根据文章生成问题和答案吗? > > 这块我们没有太多经验,可以在开源社区选几个模型试试。 开源社区有一些方案可以参考:https://docs.llamaindex.ai/en/stable/examples/finetuning/embeddings/finetune_embedding.html 请问一下bge的微调最大需要多大显存的显卡?支持多卡不?
> 支持多卡,设置`--nproc_per_node`为卡的数量即可。 显存与参数*max_length, train_group_size, per_device_train_batch_size有关。一般显卡都能跑通,如果不行,可以通过设置--fp16, --deepspeed ./df_config.json , --gradient_checkpointing来降低显存。具体参考https://github.com/FlagOpen/FlagEmbedding/tree/master/examples/finetune#3-train 谢谢
搭车问一个问题,微调数据集的格式为{"query": str, "pos": List[str], "neg":List[str]},下载了智源的训练bge embedding的数据集,如 {'query': '很差的一本书', 'pos': ['很差的一本书,内容空泛,有的章节还文不对题' ], 'neg': ['冲着这个牌子一贯的高颜值,在特价时入手一两个还是极好的,吸管杯大小合适一岁宝宝开始自己拿,不过不经摔和图案掉漆是硬伤,喜欢这个牌子的可以姑且买之,价格合适时推荐。亚马逊正品保真,送货快,比自己海淘方便划算', '偏大,不是很满意,中间那段还是类似松紧带。', '质量不错…不过还没上身试…不知道上身效果如何…', '好像是姚老师上课的讲稿,非常通俗生动,十分有趣,文科小白也觉得压力不大。我想所谓大家可能就是这样吧,做人深藏不露,叙事深入浅出,从不会没事儿抖个机灵、掉个书袋。', '鞋子穿了不到两周,鞋底的logo脱落,找售后说超过规定时间不退不换,跟亚瑟士官方联系,竟然我回复我不影响使用,不予退换,我日了狗了,你们嚣张,我就这里发发牢骚', '电镀漆的效果一般,做工质量粗糙程度一般而已', '申请了退货还发货,找不到联系人,以后还是不来买了', '砂比较细腻,不会伤到脸,用完以后脸滑滑的,还是不错的', '书从管理的多维度,对建筑建设过程中的管理,做了系统性的介绍。', '因为工作的需要购买的,书是正版。质量好,有需要教材的亲可以考虑购买。' ]},这里面有两个点不太明白,一是关于query,按照RAG场景下使用的情况,这个query应该是个问句,如“这本书怎么样?“,但在下载下来的数据集中,这个query是个陈述句;二是落地到具体某一个业务场景(如法律或其他等)的时候,这个微调数据集如何构建,业务场景的数据就是一大堆质量较好的文档,如何根据这些文档构建query、pos、neg,以微调模型学到场景的embedding?
搭车问一个问题,微调数据集的格式为{"query": str, "pos": List[str], "neg":List[str]},下载了智源的训练bge embedding的数据集,如 {'query': '很差的一本书', 'pos': ['很差的一本书,内容空泛,有的章节还文不对题' ], 'neg': ['冲着这个牌子一贯的高颜值,在特价时入手一两个还是极好的,吸管杯大小合适一岁宝宝开始自己拿,不过不经摔和图案掉漆是硬伤,喜欢这个牌子的可以姑且买之,价格合适时推荐。亚马逊正品保真,送货快,比自己海淘方便划算', '偏大,不是很满意,中间那段还是类似松紧带。', '质量不错…不过还没上身试…不知道上身效果如何…', '好像是姚老师上课的讲稿,非常通俗生动,十分有趣,文科小白也觉得压力不大。我想所谓大家可能就是这样吧,做人深藏不露,叙事深入浅出,从不会没事儿抖个机灵、掉个书袋。', '鞋子穿了不到两周,鞋底的logo脱落,找售后说超过规定时间不退不换,跟亚瑟士官方联系,竟然我回复我不影响使用,不予退换,我日了狗了,你们嚣张,我就这里发发牢骚', '电镀漆的效果一般,做工质量粗糙程度一般而已', '申请了退货还发货,找不到联系人,以后还是不来买了', '砂比较细腻,不会伤到脸,用完以后脸滑滑的,还是不错的', '书从管理的多维度,对建筑建设过程中的管理,做了系统性的介绍。', '因为工作的需要购买的,书是正版。质量好,有需要教材的亲可以考虑购买。' ]},这里面有两个点不太明白,一是关于query,按照RAG场景下使用的情况,这个query应该是个问句,如“这本书怎么样?“,但在下载下来的数据集中,这个query是个陈述句;二是落地到具体某一个业务场景(如法律或其他等)的时候,这个微调数据集如何构建,业务场景的数据就是一大堆质量较好的文档,如何根据这些文档构建query、pos、neg,以微调模型学到场景的embedding?