Shitao Xiao comments

Results 509 comments of


                                            Shitao Xiao

预训练问题

建议更新transformers再试试：`pip install -U transformers`

The examples of hybrid retrieval are not likely to be prepared quickly. Currently, you can refer to [Vespa](https://github.com/vespa-engine/pyvespa/blob/master/docs/sphinx/source/examples/mother-of-all-embedding-models-cloud.ipynb) or our evaluation [script(use Faiss and Pyserini)](https://github.com/FlagOpen/FlagEmbedding/tree/master/C_MTEB/MLDR#hybrid-retrieval-dense--sparse).

有没有bgem3三路召回结合向量库的例子，例如milvus

Now, you can use the hybrid retrieval of bge-m3 following https://github.com/milvus-io/pymilvus/blob/master/examples/hello_hybrid_sparse_dense.py

关于训练过程中的评估

您好，这个需要在run.py中进行修改，传入eval_dataset

关于训练过程中的评估

我们在llm_embedder中实现了训练过程中的评估，可以参考https://github.com/FlagOpen/FlagEmbedding/blob/master/FlagEmbedding/llm_embedder/src/retrieval/trainer.py#L50

Reranker的训练问题

1. 使用了15个hard neg，reranker的训练必须构造难负例。因为其本身就是用来重排top文档的。 2. 是的，随机采样进行训练。

Reranker的训练问题

1. 是的。3 epoch。实际上这些参数对reranker影响不大，主要影响的是难样本，lr，和train_group_size。 2. 对，reranker只计算自己的neg，不使用in batch negs，所以混合中英文没有关系。 3. 用text2vec过滤了一小部分，实际上过滤意义也不大。

Reranker的训练问题

mmarco的中文训练集不可能有这么大，你可能看成是所有语言的了。