Shitao Xiao
Shitao Xiao
可以把这些不重要词重叠的样本加到neg里作为难负样本,进行微调。
您好,可以给出一些更具体的信息,比如融合的什么模型,效果比较,好方便分析。 另外,融合的模型需要来自同一个基础模型。我们实验中,以单个任务A而言,一般融合后模型效果会在两个模型之间,或者略好于两个模型,更大的优势在于多任务通用性。
可以看看多轮会话微调模型的信息抽取精确度,大概是因为用于多轮对话微调的qwen信息抽取精确度太低了,导致合并后的模型在信息抽取精确度位于两个模型之间。如果想在保证信息抽取准确度的情况下拥有多轮对话能力,可以提高用于信息抽取微调模型的融合比例,如0.8,0.9。 如果多轮会话微调模型的信息抽取精确度也很高的话,那可能是由于我们代码上的一些问题,目前只实验过Llama模型,之后会进行排查。
数据格式参考:https://github.com/FlagOpen/FlagEmbedding/tree/master/examples/finetune#2-data-format 训练命令参考:https://github.com/FlagOpen/FlagEmbedding/tree/master/examples/finetune#3-train 参数上:train_group_size=2, batch_size=19200
unlabel指的是从无监督数据中挖掘中的文本对,如标题-正文。pos text一定要有,negative text可以没有。数据可以参考:https://data.baai.ac.cn/details/BAAI-MTP
没有neg列表的话,需要将train_group_size设为1,不从neg中采样。
您好,不太了解gunicorn,可以换成使用sentence transformers工具试试。
您好,llm_embedder是英文模型,目前不支持中文。
目前没有计划。
你好,这个现象挺有意思的,我们之前也没考虑过。请问一下是中文模型还是英文模型,这个是normalize之后的结果还是之前的,以及图里每一行代表什么含义?