FlagEmbedding icon indicating copy to clipboard operation
FlagEmbedding copied to clipboard

Retrieval and Retrieval-augmented LLMs

Results 622 FlagEmbedding issues
Sort by recently updated
recently updated
newest added

想请教您一个问题,dense vector的列表的表示可以是list[float]。那么sparse向量的存储类型应该是list[]什么呢?

- Remove returning inconsistent value type to function output type. The other existing code using that function is expected to be consistent with that function output type.

麻烦您帮我看一下,为什么在微调bge-m3的时候会出现如此报错。 之前在没有query数量为1、pos数量为1、neg数量为10的时候为微调训练正常进行;目前调整为query数量为1、pos数量为11、neg数量为10,却有报错信息,我查看了train_data,发现没有什么问题。 微调训练命令如下 nohup \ torchrun --nproc_per_node 2 \ -m FlagEmbedding.baai_general_embedding.finetune.run \ --output_dir /bgem3/supervised_simcse_fine-tune \ --model_name_or_path /bgem3 \ --train_data query_pos_neg_data.jsonl \ --learning_rate 1e-5 \ --fp16 \ --num_train_epochs 200 \ --per_device_train_batch_size...

# bge-m3 torchrun --nproc_per_node 8 \ -m FlagEmbedding.reranker.run \ --output_dir model \ --model_name_or_path bge-m3 \ --train_data rerank.jsonl \ --learning_rate 6e-5 \ # --deepspeed /ds_config.json # --gradient_checkpointing --fp16 \ --num_train_epochs 5...

每次compute_score都会进行模型加载,耗时严重。如何缩短该部分时长? ```shell 0%| | 0/8 [00:00

第三阶段的loss说的是使用multi-task learning,单对于检索任务来说,loss是否还是对比学习的loss呢? 因为检索中常常会要考虑是否可以根据reranker的打分进行过滤,但如果是对比学习的loss,打分绝对值应该是没有意义的,没有经过具体的回归任务,不应该依赖绝对分值 所以还是想确认下第三阶段的loss具体形式