FlagEmbedding
FlagEmbedding copied to clipboard
Retrieval and Retrieval-augmented LLMs
fastchat version 0.2.36 First, start the services: `python3 -m fastchat.serve.controller --port 21002 --host 0.0.0.0` `python3 -m fastchat.serve.model_worker --port 21003 --model-names bge-m3 --model-path /root/proj/models/bge-m3 --device cpu --controller-address http://0.0.0.0:21002 --host 0.0.0.0` `python3...
您好,想再问一下挖掘负样本时选择的范围 多语言版本的msmarco数据中,https://microsoft.github.io/msmarco/, 一个问题对应一个负样本  通过hn_mine.py挖掘更多负样本时,范围是从input_file的已有neg中选择的吗?还是其他呢? 另外,candidate_pool可以设置为语料库(msmarco给的collections)中排除测试集的文档吗? 谢谢 _Originally posted by @AugustLHHHHHH in https://github.com/FlagOpen/FlagEmbedding/issues/785#issuecomment-2112418090_
模型为bge-m3 我使用了450条训练数据,其中每条数据包括,1个query sentence,1个pos sentence,7个neg sentence。 其中7个neg sentence,有两种情况: 1 其中有1个neg sentence是标注的,剩下的6个是随机匹配的(满足bgemodel.compute_score小于0.7) 2 7个全都是随机生成的。 1个npos sentence,有两种情况:LLM生成的或者手动标注的。  从实验结果中可以发现,当我的权重配比中,sparse不为0时,acc会降低,这种情况是为什么?
I just saw the script that mine the hard negative for the bi encoder
如果要基于自己的中英文文本数据,对BGE-M3模型进行RetroMAE的二次训练,是直接对xlm-roberta进行二次训练吗
Hi, I am trying to finetune baai-general-embedding model using my own data. I followed finetuning tutorial in this repository. the result was not good and the accuracy was worse than...
当我用几十万样本做模型的微调时 目前是BGE-zh-large-1.5和BGE-m3 { "query": "【超值揭秘】亚龙湾潜水大冒险就在离开三亚的前一天,我们决定不给旅程留遗憾,不去潜水怎么行?感觉自己就像站在长城脚下,不登就错过亿! 登山包准备起来,直奔亚龙湾!原本计划去蜈支洲,听说消费高得吓人,于是开始疯狂比价。最后,发现了一个超实惠套餐,600大洋一个人,十项全能体验!前一天晚上联系到店家,客服小哥哥小姐姐超Nice,保证没有隐藏费用,还说有任何不满就退款。我们就半信半疑地预订了(毕竟听说三亚的“坑”多,但我们还是要勇敢一试!)第二天,接我们的车准时出现在红树林酒店,一路直达亚龙湾。小团队出行,人少体验好!潜水教练详细讲解,然后我们就下水啦!(早上去,水清鱼多,而且还有免费深潜哦!不需要额外买装备呢!)拍了美美哒玻璃船照片,还全部赠送给我们。午餐海鲜大餐,满满的幸福感!️ 下午摩托艇、香蕉船、帆船,乐趣不断!最惊喜的是,又送了摄影服务,记录下每一个激动瞬间!离开时,他们还贴心地把我们送到机场附近的酒店。工作人员耐心又负责,这次真的没踩坑!这600块,值了!姐妹们,一定要避开摩的司机的“小建议”哦,我们差点被坑惨了!一顿海鲜花了大价钱,心疼!#亚龙湾潜水冒险# #三亚性价比之王# #海岛潜水日记#", "pos": [ "亚龙湾潜水后续全过来啦返程前一天去亚龙湾的潜水 本来不打算玩了 但是想了想来都来了 不玩潜水多可惜呀 就像到北京不登长城非好汉似的哈哈哈 |||然后我们就准备去蜈支洲岛上岛玩潜水 都说那边水质好 可后来网上人都说那边消费太高 于是我们就在各大平台使劲刷 后来看到亚龙湾一家套餐也不错 600块钱一个人 包括大概十几个项目 我们是去的前一天晚上联系到的他 然后的他绿泡泡 第一次体验潜水嘛什么都不知道 他们就耐心的给讲解了一下 说绝对不会߈ׯ؏ 隐形收费 要是被坑了...
在微调时llm_reranker.finetune_for_layerwise CUDA_VISIBLE_DEVICES=4,5,6,7 torchrun --nproc_per_node=4 \ -m FlagEmbedding.llm_reranker.finetune_for_layerwise.run \ --output_dir ./model_ha \ --model_name_or_path ./bge-reranker-v2-minicpm-layerwise \ --train_data ./data/train_0425.jsonl \ --learning_rate 2e-4 \ --num_train_epochs 50 \ --per_device_train_batch_size 2 \ --gradient_accumulation_steps 16 \ --dataloader_drop_last...
hi,您好 想请教下C-MTEB中CovidRetrieval数据原论文是哪篇呢 在链接:https://github.com/FlagOpen/FlagEmbedding/tree/master/C_MTEB 里  covid数据点击的跳转链接是DuReader 谢谢