Shitao Xiao

Results 509 comments of Shitao Xiao

可以通过一下方式判断输入的token数量,注意目前超过512的会被截断。 ``` from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained('BAAI/bge-large-zh-v1.5') input_l = len(tokenizer.encode("hello")) ```

> AutoTokenizer > > > 可以通过一下方式判断输入的token数量,注意目前超过512的会被截断。 > > ``` > > from transformers import AutoTokenizer > > tokenizer = AutoTokenizer.from_pretrained('BAAI/bge-large-zh-v1.5') > > input_l = len(tokenizer.encode("hello")) > > ``` > >...

可以检查一下合成数据的质量,以及是否和下游任务保持一致。目前最好的方式还是使用大模型根据文本内容生成问题数据。

您好,预测遮蔽字符可以作为参考,但我们目前也没试过。

model文件夹下面的pytorch_model.bin是encoder和decoder的参数; model/encoder_model/里是encoder模型的参数,微调时只使用encoder。

可以提供一下训练命令方便分析。

命令看起来没有问题,可能是环境之类的问题。

超出显存了, 可以减小train_group_size或者,减小per_device_train_batch_size(可以通过提高gradient_accumulation_steps来维持batch size)

预训练loss降不到很低。我们大概训了4天左右。