FlagEmbedding
FlagEmbedding copied to clipboard
Retrieval and Retrieval-augmented LLMs
The pred_hard_encodings size dismatch with preds_scores when faiss indice has -1. so I retrieve preds_scores first len(pred_hard_encoding) to make it correct. Does it introduce any other problems? Thank you.
在三张不同型号的英伟达的卡上跑同一个片段的稀疏向量,都是全精度的,以输出的其中一个向量(id:4)为例: 卡1: "4": 0.016722925007343292 卡2: "4": 0.0167231485247612 卡3: "4": 0.016723912209272385 这个正常不? 如果用fp16的话差异更大,在小数点后3位就会不一样,这样如果混用不同的卡会影响效果么?
对于bge-large模型用NPU推理出来结果和GPU推理出来的结果对比发现存在大约2%的精度差,请问能优化一下相关问题么
可以使用https://github.com/FlagOpen/FlagEmbedding/blob/master/FlagEmbedding/llm_embedder/docs/fine-tune.md 这种方式吗?
昇腾 NPU跑bge-m3-rerank,跑同样的序列,从第二次开始就很快了。但是如果每次batch长度大小不一,或者有时候长度很长,16batch 800长度序列,速度就会变得超级慢,在910A上推理,10分钟都跑不完,是为什么,怎么优化呢? 另外,试了下跑onnx的cpu版本,16*6000的序列也超级慢,要好几分钟,正常吗,怎么优化?
Let's say I embedded a text and save it in a file. After performing cosine similarity, I want to retrieve text. How can I do it? I'm using onnx file...