Shitao Xiao comments

Results 509 comments of


                                            Shitao Xiao

I'd like to add some some codes or project to support the embedding model evalutaion on downstream embedding task ? could I try PR

Sure we welcome the PR from the community.

了解到Bge当前最大输入tokens数量是512，请问有没有什么方法可以判断传给bge模型的文本token是否超出512

可以通过一下方式判断输入的token数量，注意目前超过512的会被截断。 ``` from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained('BAAI/bge-large-zh-v1.5') input_l = len(tokenizer.encode("hello")) ```

了解到Bge当前最大输入tokens数量是512，请问有没有什么方法可以判断传给bge模型的文本token是否超出512

> AutoTokenizer > > > 可以通过一下方式判断输入的token数量，注意目前超过512的会被截断。 > > ``` > > from transformers import AutoTokenizer > > tokenizer = AutoTokenizer.from_pretrained('BAAI/bge-large-zh-v1.5') > > input_l = len(tokenizer.encode("hello")) > > ``` > >...

请问只有文本内容，怎么生成微调数据，有什么好办法么？

可以检查一下合成数据的质量，以及是否和下游任务保持一致。目前最好的方式还是使用大模型根据文本内容生成问题数据。

怎么直观的评估模型预训练之后的效果呢

您好，预测遮蔽字符可以作为参考，但我们目前也没试过。

怎么直观的评估模型预训练之后的效果呢

model文件夹下面的pytorch_model.bin是encoder和decoder的参数； model/encoder_model/里是encoder模型的参数，微调时只使用encoder。

finetune没有进度问题

可以提供一下训练命令方便分析。

finetune没有进度问题

命令看起来没有问题，可能是环境之类的问题。

bge-reranker-large微调报错

超出显存了，可以减小train_group_size或者，减小per_device_train_batch_size（可以通过提高gradient_accumulation_steps来维持batch size）

预训练bge large 1.5，loss可以低到多少

预训练loss降不到很低。我们大概训了4天左右。