FlagEmbedding issues

了解到Bge当前最大输入tokens数量是512，请问有没有什么方法可以判断传给bge模型的文本token是否超出512

4

如题。在给bge喂数据的时候希望能够有个前置的检测tokens数量，是否有方法（比如api，sdk之类）的方式来判断输入文本的token量

TChengZ

我注意到12月24日贵单位发布的LLaRA，请问周日你们也加班吗？996已经不够了吗？

如题，求问，这么卷吗？

200987299

finetune没有进度问题

3

![image](https://github.com/FlagOpen/FlagEmbedding/assets/23721380/23fd0e74-6312-4f0a-a253-33b41bcf9872) 按照微调命令，一直没有进度，在4090和A100上都是这样，请问如何解决

Ke51n

请教各位大佬。文档里说： Note that the goal of pre-training is to reconstruct the text, and the pre-trained model cannot be used for similarity calculation directly, it needs to be fine-tuned。预训练之后的模型有一些可以直接看到效果的用法吗？...

flowermlh

语料里的知识出现多少次才能被记住

大语言模型是有记忆力的，所以能预训练之后，能回答一些它学习过的知识。出现的越多，预测时可能就会更容易被使用。好奇的是：一个知识是否只要出现过，经过预训练，大语言模型就能记住呢。

flowermlh

bge-large-zh预训练

5

用自己的数据对bge-large-zh进行预训练，如何在训练过程中对测试集进行loss计算

zemu121

请教两个细节问题

3

1、用来预训练bge-large-zh-1.5的基座模型是什么？ 2、有什么推荐的，比较好的中文bert类模型，用来替换基座模型预训练，提高在中文领域的embedding和reranker效果？

mechigonft

bge-reranker-large微调报错

1

您好，我这在微调bge-reranker-large的时候一直在报两个错，这是什么原因呢： ![46347d54-5deb-4224-b6e2-5ccb43b06e0f](https://github.com/FlagOpen/FlagEmbedding/assets/147381086/7eba3117-3c71-44db-b93f-7303f10135d8) ![556a9365-5f38-49be-ac90-8efa21ac88e5](https://github.com/FlagOpen/FlagEmbedding/assets/147381086/f29681b2-afb0-4591-acaf-75639ee1f02b) 我的显存是30G，训练bge-large-zh都可以；参数如下： python ./run.py --model_name_or_path='/oss/model/bge-reranker-large' \ --output_dir='/oss/model/bge-reranker-large-ft-lbb/1.0.0' \ --train_data='/oss/data/bge-large-zh-lbb-data/train_pos_top30.jsonl' \ --num_train_epochs=2 \ --learning_rate 6e-5 \ --fp16 \ --per_device_train_batch_size 10 \ --logging_steps 100

libingbingd

关于微调reranker的一些疑问

8

您好，非常棒的工作！我对bge-reranker的微调部分有一些疑问如下： 1. 目前bge-reranker使用的基座模型是xlm-roberta-base，如果我想替换为其他huggingface上中文效果更好的bert类模型，是否只需要修改微调reranker时的model_name_or_path参数即可？还是说需要重新预训练一个reranker才行 2. reranker模型目前支持的max len是512，如果我的输入长度大于512，而又不想截断丢失语义信息的话，是否有其他好办法可以支持更长的文本长度？诸如longformer或roformer等模型是否可以在微调阶段使用？ 3. 如果我想实现在保留排序能力的前提下，实现相关性检测的分类功能，即判断检索排序结果中哪些是真正相关的正样本，由于正样本的个数不确定，所以我不太想使用卡阈值或者取topn的方式来实现，请问reranker如何改进可以实现这种功能吗？还请能够帮我解答一下，谢谢！

Gladiator566

训练日志弹出：Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained. Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.

6

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained. Special tokens have been added in the vocabulary, make sure the associated...

mechigonft

FlagEmbedding
FlagEmbedding copied to clipboard

Metadata

了解到Bge当前最大输入tokens数量是512，请问有没有什么方法可以判断传给bge模型的文本token是否超出512

我注意到12月24日贵单位发布的LLaRA，请问周日你们也加班吗？996已经不够了吗？

finetune没有进度问题

怎么直观的评估模型预训练之后的效果呢

语料里的知识出现多少次才能被记住

bge-large-zh预训练

请教两个细节问题

bge-reranker-large微调报错

关于微调reranker的一些疑问

训练日志弹出：Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained. Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.

← Metadata

Owner

Metadata

FlagEmbedding FlagEmbedding copied to clipboard

Metadata

← Metadata

Owner

Metadata

FlagEmbedding
FlagEmbedding copied to clipboard