uniem icon indicating copy to clipboard operation
uniem copied to clipboard

unified embedding model

Results 45 uniem issues
Sort by recently updated
recently updated
newest added

### 🐛 bug 说明 finetune中途突然OOM,是不是需要限制输入长度呢,请问代码内部会做截断么?目前输入长度没有做限制 torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 96.00 MiB (GPU 0; 31.74 GiB total capacity; 27.71 GiB already allocated; 91.12 MiB free; 31.22 GiB...

bug

### 🐛 bug 说明 如果只有Input和正例,那么损失函数是什么呢 ### Python Version None

bug

### 🚀 The feature 在说明里能不能增加一下显卡的要求啊? 比如说,哪种数据量级的数据微调时,m3e-small base large 对显卡显存的要求是什么? 4080 16G、3090 24G这些卡 单卡能跑吗? 穷人手里没有48G 80G这样的卡。 非常感谢大佬们的答复。

enhancement

### 🐛 bug 说明 保存的checkpoint目录下缺少文件吧?为啥只有3个文件,而完整的 model目录有6个文件 这是完整的模型目录: ### Python Version None

bug

### 🐛 bug 说明 **使用指令** CUDA_VISIBLE_DEVICES=2,3 accelerate launch --num_processes 2 path_to_train_m3e.py path_to_model path_to_dataset \ --output-dir output_dir **报错信息** RuntimeError: Expected to have finished reduction in the prior iteration before starting a...

bug

### 🐛 bug 说明 1. 请问微调m3e-base需要多少数据量才有效果,我使用条左右训练,貌似没有效果,微调前后embedding的l2距离是一样 2. 微调时候loss为0 3. 合同签订前 ,合同签订后。 这两个目前我使用m3e 他们的语义很近似,但是在我的业务场景他们应该是最不接近的。微调的很多数据也是类似的后缀的意思不一样 但是总体的语义是接近的。这样可以微调吗? 谢谢 ### Python Version None

bug

### 🚀 The feature 在用optimun转换为onnx之后,我发现输出多了一个: 请问为什么会这样?您给出的推理示例直接输入了整个句子,我在构建输入的时候是只用给input_id 和attention_mask吗?token_type_ids需不需要输入?

enhancement

### 🚀 The feature 您好,想请教下怎么支持智源开源的C_MTEB数据集的评测 我使用领域数据微调了bge的模型,想看看在C_MTEB上的效果 谢谢

enhancement

### 🐛 bug 说明 请问微调模型是否支持单机多卡 ### Python Version None

bug

1.m3e最大长度是多少呢?按照文本字算的还是token呀? 2.如果是长文本的话按短句切分并保存到embedding库后续计算效果会更加好一点吗?