Shitao Xiao
Shitao Xiao
Sure we welcome the PR from the community.
可以通过一下方式判断输入的token数量,注意目前超过512的会被截断。 ``` from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained('BAAI/bge-large-zh-v1.5') input_l = len(tokenizer.encode("hello")) ```
> AutoTokenizer > > > 可以通过一下方式判断输入的token数量,注意目前超过512的会被截断。 > > ``` > > from transformers import AutoTokenizer > > tokenizer = AutoTokenizer.from_pretrained('BAAI/bge-large-zh-v1.5') > > input_l = len(tokenizer.encode("hello")) > > ``` > >...
可以检查一下合成数据的质量,以及是否和下游任务保持一致。目前最好的方式还是使用大模型根据文本内容生成问题数据。
您好,预测遮蔽字符可以作为参考,但我们目前也没试过。
model文件夹下面的pytorch_model.bin是encoder和decoder的参数; model/encoder_model/里是encoder模型的参数,微调时只使用encoder。
可以提供一下训练命令方便分析。
命令看起来没有问题,可能是环境之类的问题。
超出显存了, 可以减小train_group_size或者,减小per_device_train_batch_size(可以通过提高gradient_accumulation_steps来维持batch size)
预训练loss降不到很低。我们大概训了4天左右。