FlagEmbedding icon indicating copy to clipboard operation
FlagEmbedding copied to clipboard

挖掘hard-negatives时失败

Open EricGu1001 opened this issue 1 year ago • 1 comments

在挖掘hard negatives时,没有报错一直停在creating index and search, 我的运行命令是 python -m FlagEmbedding.baai_general_embedding.finetune.hn_mine
--model_name_or_path BAAI/bge-m3
--input_file toy_finetune_data.jsonl
--output_file toy_finetune_data_minedHN.jsonl
--range_for_sampling 2-200
--negative_number 15
--use_gpu_for_searching 然后top查看进程占用cpu 100% 去掉--use_gpu_for_searching后可以正常运行

还想请教一下我的数据是一段长文本以及一个关于长文本的问题及答案,请问该怎么构造挖掘hard-nagetives中的inputfile和candidate pool呢?

EricGu1001 avatar Mar 04 '24 13:03 EricGu1001

input_file格式是"{"query":str, "pos":List[str], "neg":List[str]}", 包括问题和其对应的长文本(pos),neg列可以随机选择或者为空。candidate pool可以不输入,这样的话脚本会汇总pos和neg,形成candidate pool从中挖掘难样本。

staoxiao avatar Mar 05 '24 09:03 staoxiao