uniem
uniem copied to clipboard
unified embedding model
### 🚀 The feature 支持商汤https://huggingface.co/sensenova/piccolo-large-zh的微调吗
关于模型效果
### 🐛 bug 说明 现在想要做的是query和answer的匹配,而且是开放领域,比较复杂。问句中可能没有和answer对应的实体或者意图。比如: query: 我可以吃生蚝和扇贝吗 answer: 你不知道,我这个人对海鲜过敏 类似这样的匹配,试了很多模型相似度都很低,这个m3e偶尔可以,但是不相关的相似也很高。这个解决办法只能用增加数据集吗 ### Python Version None
### 🐛 bug 说明 您好,我构建了一个自有数据集,格式为[label, query1, query2],使用该数据集微调m3e-base模型。同时构建了一个测试数据集,格式为[query, passage1,passage2,passage3,passage4,passage5]。使用原始m3e-base模型和微调后模型分别得到测试数据集的MAE,P@top3,Spearman,发现这三个指标都下降了,这是什么原因呢 附相关指标参数: MAE P@top3 Spearman 备注 m3e-base 1.068 0.733 0.431 normalized m3e-base 1.072 0.7333 0.428 not normalized m3e-base-ft 1.24 0.6766 0.3039 使用query2query数据集微调 ###...
### 🐛 bug 说明 No sentence-transformers model found with name ./finetuned-model/model. Creating a new one with MEAN pooling. 基于m3e finetune模型但是得到这样的提示,是我的训练代码设置问题吗? ``` df = pd.read_json('train_m3e.jsonl', lines=True) dataset = Dataset.from_pandas(df) dataset =...
### 🐛 bug 说明 dataset 带validation,loss -> ~4.0 dataset 不带validation,loss -> ~0.05 非常不正常,是为什么? ### Python Version None
### 🚀 The feature 代码里面,对medi数据集的使用貌似使用'\n'拼接了指令和文本;请问有使用instruction-embedding的训练方法吗(即输入时拼接指令、文本,但最后句子表征是仅仅在文本的token上计算last mean pooling)
### 🐛 bug 说明 空字符串也会输出特征,与其他特征计算余弦距离时,能达到0.6+相似度,请问这个是一个bug还是模型本身的缺陷,这是否意味着模型输出的特征不可信 ### Python Version None
### 🐛 bug 说明 # 期望三元组形式训练 #读取的数据来自于csv,然后通过dataframe转为json对象,但是遇到无法读数据的问题,希望大大帮忙解答下 ### Python Version None