FlagEmbedding
FlagEmbedding copied to clipboard
挖掘hard-negatives时失败
在挖掘hard negatives时,没有报错一直停在creating index and search,
我的运行命令是
python -m FlagEmbedding.baai_general_embedding.finetune.hn_mine
--model_name_or_path BAAI/bge-m3
--input_file toy_finetune_data.jsonl
--output_file toy_finetune_data_minedHN.jsonl
--range_for_sampling 2-200
--negative_number 15
--use_gpu_for_searching
然后top查看进程占用cpu 100%
去掉--use_gpu_for_searching后可以正常运行
还想请教一下我的数据是一段长文本以及一个关于长文本的问题及答案,请问该怎么构造挖掘hard-nagetives中的inputfile和candidate pool呢?
input_file格式是"{"query":str, "pos":List[str], "neg":List[str]}", 包括问题和其对应的长文本(pos),neg列可以随机选择或者为空。candidate pool可以不输入,这样的话脚本会汇总pos和neg,形成candidate pool从中挖掘难样本。