Shitao Xiao

Results 509 comments of Shitao Xiao

1. 16卡,per_device_train_batch_size=1, gradient_accumulation_steps=6 2. 不同数据集处理方式不同。我们这两天把这份数据开源出去吧 3. 只使用了cMedQA2,共94481条数据,注意对于这个数据没有挖掘难样本

用的随机选取的负样本

数据发布在:https://huggingface.co/datasets/Shitao/bge-reranker-data

是正常的,xlm-roberta模型就只有一个type_ids:https://huggingface.co/FacebookAI/xlm-roberta-large/blob/main/config.json

您好,bge-m3基座为经过拓展position和retromae预训练后的xlm-roberta-large,可以参考技术报告的附录。 预训练后的模型近期也准备开源出来。

直接把position embedding加上8192-512个新向量进行训练,新位置向量使用该方法;https://spaces.ac.cn/archives/7947 进行初始化/

Thanks for your interest in our work! In langchain, you can use `HuggingFaceEmbeddings` to load bge-m3, which will use sentence-transformers tool to generate dense embedding.

> > Thanks for your interest in our work! In langchain, you can use `HuggingFaceEmbeddings` to load bge-m3, which will use sentence-transformers tool to generate dense embedding. > > how...

您好,compute_score时用的dataparall,所有显卡的结果都会返回到第一张卡上,由于colbert和sparse vector空间占用比较大,会导致第一张卡显存占用很大,尤其是在数据比较长的时候。 目前实现的compute_score只是个样咧,实际使用还需优化。如果需要compute_score来进行重排,可以尝试使用bge-reranker

> 我是在测试检索阶段还没有进到重排,发现使用sentence-transformer的情况下m3比v1.5large表现好很多,换成flagembedding的compute_score时指标还能再提升;之前也有试过直接使用rerank,但是还是有一定差距的 感谢反馈!compute_score主要是使用了colbert进行计算,我们后面会考虑对其进行压缩,减小显存使用。