Shitao Xiao

Results 509 comments of Shitao Xiao

建议更新transformers再试试:`pip install -U transformers`

您好,结合向量库的例子在我们的计划中,预计下个月会发布。

The examples of hybrid retrieval are not likely to be prepared quickly. Currently, you can refer to [Vespa](https://github.com/vespa-engine/pyvespa/blob/master/docs/sphinx/source/examples/mother-of-all-embedding-models-cloud.ipynb) or our evaluation [script(use Faiss and Pyserini)](https://github.com/FlagOpen/FlagEmbedding/tree/master/C_MTEB/MLDR#hybrid-retrieval-dense--sparse).

Now, you can use the hybrid retrieval of bge-m3 following https://github.com/milvus-io/pymilvus/blob/master/examples/hello_hybrid_sparse_dense.py

您好,这个需要在run.py中进行修改,传入eval_dataset

我们在llm_embedder中实现了训练过程中的评估,可以参考https://github.com/FlagOpen/FlagEmbedding/blob/master/FlagEmbedding/llm_embedder/src/retrieval/trainer.py#L50

1. 使用了15个hard neg,reranker的训练必须构造难负例。因为其本身就是用来重排top文档的。 2. 是的,随机采样进行训练。

1. 是的。3 epoch。实际上这些参数对reranker影响不大,主要影响的是难样本,lr,和train_group_size。 2. 对,reranker只计算自己的neg,不使用in batch negs,所以混合中英文没有关系。 3. 用text2vec过滤了一小部分,实际上过滤意义也不大。

mmarco的中文训练集不可能有这么大,你可能看成是所有语言的了。