yuxin.wang

Results 78 comments of yuxin.wang

16G 这种级别的卡就都够用,需要注意的是,batch_size 不要设置的太大

uniem 的显存瓶颈主要在激活上,并且依赖于 In Batch 的负采样,所以 DDP 或者 ZeRO 的方式也没有办法提升 Batch Size...

1. 一般至少数百条数据 2. 微调主要应该看验证集的 Loss 不要看训练集的 Loss 3. 可以微调的

我建议最好都是全参数微调,bitfit 是为了微调 7B 以上的模型,但这个算法的效果我自己实验下来不是很理想...

你微调后的模型应该可以直接用 C_MTEB 来评测,有遇到什么困难吗?

1. 按照 token 计算,最大的 token 数量为 512 2. 嗯嗯,分 chunk 会好一点

嗯嗯,是的。直接计算就行,也不需要提示语句。

大概就是 512 个汉字

= 的目的是将那些相似度相同的 pair,也排除在 loss 之外。

1. 我猜 transformers 的新版本模型权重只会保存 model.safetensors ,不再保存 pytorch_model.bin 2. 这个提示是正常的,因为保存的格式不是 sentence_transformers 的,不过推理起来都是正确的。您可以再次调用 sentence_transformers 库的保存模型方法,保存一个 sentence_transformers 的模型。