Shitao Xiao comments

Results 509 comments of


                                            Shitao Xiao

Reranker的训练问题

1. 16卡，per_device_train_batch_size=1, gradient_accumulation_steps=6 2. 不同数据集处理方式不同。我们这两天把这份数据开源出去吧 3. 只使用了cMedQA2，共94481条数据，注意对于这个数据没有挖掘难样本

Reranker的训练问题

用的随机选取的负样本

Reranker的训练问题

数据发布在：https://huggingface.co/datasets/Shitao/bge-reranker-data

bge-rerank模型的tokenizer，

是正常的，xlm-roberta模型就只有一个type_ids：https://huggingface.co/FacebookAI/xlm-roberta-large/blob/main/config.json

bge-m3的基座模型

您好，bge-m3基座为经过拓展position和retromae预训练后的xlm-roberta-large，可以参考技术报告的附录。预训练后的模型近期也准备开源出来。

bge-m3的基座模型

直接把position embedding加上8192-512个新向量进行训练，新位置向量使用该方法；https://spaces.ac.cn/archives/7947 进行初始化/

bge-m3 default representation

Thanks for your interest in our work! In langchain, you can use `HuggingFaceEmbeddings` to load bge-m3, which will use sentence-transformers tool to generate dense embedding.

bge-m3 default representation

> > Thanks for your interest in our work! In langchain, you can use `HuggingFaceEmbeddings` to load bge-m3, which will use sentence-transformers tool to generate dense embedding. > > how...

BGEM3FlagModel显卡调用问题

您好，compute_score时用的dataparall，所有显卡的结果都会返回到第一张卡上，由于colbert和sparse vector空间占用比较大，会导致第一张卡显存占用很大，尤其是在数据比较长的时候。目前实现的compute_score只是个样咧，实际使用还需优化。如果需要compute_score来进行重排，可以尝试使用bge-reranker

BGEM3FlagModel显卡调用问题

> 我是在测试检索阶段还没有进到重排，发现使用sentence-transformer的情况下m3比v1.5large表现好很多，换成flagembedding的compute_score时指标还能再提升；之前也有试过直接使用rerank，但是还是有一定差距的感谢反馈！compute_score主要是使用了colbert进行计算，我们后面会考虑对其进行压缩，减小显存使用。