FlagEmbedding
FlagEmbedding copied to clipboard
Retrieval and Retrieval-augmented LLMs
如题。 在给bge喂数据的时候希望能够有个前置的检测tokens数量,是否有方法(比如api,sdk之类)的方式来判断输入文本的token量
如题,求问,这么卷吗?
 按照微调命令,一直没有进度,在4090和A100上都是这样,请问如何解决
请教各位大佬。 文档里说: Note that the goal of pre-training is to reconstruct the text, and the pre-trained model cannot be used for similarity calculation directly, it needs to be fine-tuned。 预训练之后的模型有一些可以直接看到效果的用法吗?...
大语言模型是有记忆力的,所以能预训练之后,能回答一些它学习过的知识。 出现的越多,预测时可能就会更容易被使用。 好奇的是: 一个知识是否只要出现过,经过预训练,大语言模型就能记住呢。
用自己的数据对bge-large-zh进行预训练,如何在训练过程中对测试集进行loss计算
请教两个细节问题
1、用来预训练bge-large-zh-1.5的基座模型是什么? 2、有什么推荐的,比较好的中文bert类模型,用来替换基座模型预训练,提高在中文领域的embedding和reranker效果?
您好,我这在微调bge-reranker-large的时候一直在报两个错,这是什么原因呢:   我的显存是30G,训练bge-large-zh都可以; 参数如下: python ./run.py --model_name_or_path='/oss/model/bge-reranker-large' \ --output_dir='/oss/model/bge-reranker-large-ft-lbb/1.0.0' \ --train_data='/oss/data/bge-large-zh-lbb-data/train_pos_top30.jsonl' \ --num_train_epochs=2 \ --learning_rate 6e-5 \ --fp16 \ --per_device_train_batch_size 10 \ --logging_steps 100
您好,非常棒的工作! 我对bge-reranker的微调部分有一些疑问如下: 1. 目前bge-reranker使用的基座模型是xlm-roberta-base,如果我想替换为其他huggingface上中文效果更好的bert类模型,是否只需要修改微调reranker时的model_name_or_path参数即可?还是说需要重新预训练一个reranker才行 2. reranker模型目前支持的max len是512,如果我的输入长度大于512,而又不想截断丢失语义信息的话,是否有其他好办法可以支持更长的文本长度?诸如longformer或roformer等模型是否可以在微调阶段使用? 3. 如果我想实现在保留排序能力的前提下,实现相关性检测的分类功能,即判断检索排序结果中哪些是真正相关的正样本,由于正样本的个数不确定,所以我不太想使用卡阈值或者取topn的方式来实现,请问reranker如何改进可以实现这种功能吗? 还请能够帮我解答一下,谢谢!
Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained. Special tokens have been added in the vocabulary, make sure the associated...