yuxin.wang
yuxin.wang
支持的,各种单机多卡的策略都可以支持
单机多卡的 finetuning 是通过 accelerate 包来支持的,你需要参考 [accelerate](https://huggingface.co/docs/accelerate/en/index) 的方式来使用
https://github.com/wangyuxinwhy/uniem/blob/main/uniem/criteria.py 可以查看 Loss 的计算方式,Loss 的计算实现了 In-Batch 的负采样
嗯嗯,对的~
1. m3e 系列模型都是在 80G 显卡上尽可能的让 batch_size 更大,具体的参数我只能记个大概了,max_length small 是512,base 和 large 是400,batch_size small 256,base 80 ,large 32 。 2. 训练使用的数据集就是 Model Card 上介绍的数据集,其中部分在 HuggingFace 开源的数据集提供了处理脚本,另外部分的数据集由于 license 的原因没有提供处理脚本,需要自行处理,但是数据集就是页面上介绍的那些。 3. m3e-large 没有在英文上训练,m3e-large...
1. 一张卡 2. 具体的时间记不清了,最长的 large 也就不到三天 3. 就跑一个 epoch
因为数据集太大了,计算资源有限,所以没有跑多个 epoch,跑多个 epoch 可能效果还会有提升,不过我预计提升幅度不会很大。
这部分没有特别的建议,数据处理我主要使用的是 huggingface 的 datasets 。
> m3e-small 用下面的参数, A100 80G就会爆显存: --batch-size 128 --max-length 512 使用半精度了吗?
mixed_precision ,--mixed-precision fp16