FlagEmbedding
FlagEmbedding copied to clipboard
Retrieval and Retrieval-augmented LLMs
感谢开源这么好的工作,我有几个关于 bge-reranker 微调的问题想请教下: 1. 对于一个 query,我通过微调 embedding 模型已经召回一个跟 query 都相关的 candidates 列表,我想通过微调 reranker 改变 candidates 的排序,例如句子 A 有三个相关的句子 B、C、D,原始 bge-reranker 模型给出的相关度排序就是 B、C、D,我现在想把顺序改成 D、C、B,但 B 本身是跟 A 很相似的,如果按照 `{ "query": "A",...
论文名称:imporving_text_embeddings_with_large_language_modeds 模型地址:intfloat/e5-mistral-7b-instruct 可惜这个模型的基座模型是英文模型,英文效果好,但是中文并不好
你好,finetune垂直领域的数据集大约6500条,query是从单条document里用大模型抽样出来的问题,pos是那条document,负样本是用了BAAI/bge-large-zh-v1.5模型计算与大概8万条documents的score,随机取了top30-100的5条。但训练发现loss不降低,尝试过多个epoch torchrun --nproc_per_node 1 \ -m FlagEmbedding.baai_general_embedding.finetune.run \ --output_dir model_6 \ --model_name_or_path model_large \ --train_data toy_finetune_data_100.jsonl \ --learning_rate 1e-5 \ --fp16 \ --num_train_epochs 10 \ --per_device_train_batch_size 10 \ --dataloader_drop_last True...
I just finished pretraining BAAI/bge-base ... is it possible to use the llm-embedder training script on the same model or os the the embedder model different
(llm-embedder) root@autodl-container-4eab48a812-48d634d3:~/autodl-tmp/FlagEmbedding-master/FlagEmbedding/llm_embedder# CUDA_VISIBLE_DEVICES=0 torchrun --nproc_per_node=8 run_dense.py --output_dir data/outputs/nq --train_data llm-embedder:qa/train.json --eval_data llm-embedder:qa/test.json --corpus llm-embedder:qa/corpus.json --metrics nq --key_max_length 128 --query_max_length 32 --contrastive_weight 0 --stable_distill --eval_steps 2000 --save_steps 2000 --max_steps 2000 --data_root...
在运行微调脚本报错 torch.distributed.elastic.multiprocessing.api: [ERROR] failed (exitcode: 1) local_rank: 0
> bash run.sh # 下面是运行脚本内容 #!/usr/bin/env bash export OMP_NUM_THREADS=2 torchrun --nproc_per_node 2 \ -m .run \ --output_dir ../models/bge-large-zh-medical-v2 \ --model_name_or_path ../BAAI/bge-large-zh-v1.5 \ --train_data ../data/toy_finetune_data.jsonl \ --learning_rate 1e-5 \ --fp16 \...
现在打算使用BGE-base和BGE-large做大模型召回部分的embedding模型,希望在自己的数据集上ft一下,请问二者数据大概应该准备多少呢?另外负例大小有推荐的值吗?还是说默认10就不错?
请问微调第一阶段使用unlabel的数据的格式是什么样的有参考吗,还有个问题就是有没有一阶段微调的命令和参数设置呢,感谢!
对于v1.5的模型,使用示例的程序,每次infer时relevance score都不一样,甚至相对大小都可能不一样,这是什么原因呢?
是的,两个训练数据的格式是一样的,可以直接使用同一份训练数据。 建议的流程是,训练完向量模型后,用向量模型挖掘出难负样本,再去训练reranker,让reranker能更好区分向量返回的top-k结果。 _Originally posted by @staoxiao in https://github.com/FlagOpen/FlagEmbedding/issues/157#issuecomment-1754223604_