yuxin.wang
yuxin.wang
> 您好 在微调时 ,发现会自动减少batch_size这是什么原因 ?难道是cuda 内存不足? 如果不指定 batch_size 的话,cuda 内存不足时,会自动的减小 batch_size
> 好的!感谢您 ,目前微调时,在训练集上loss下降的并不大,仅仅是6.9364--6.9305的变化,而且在验证集上的loss 还增加了 ,出现了一定的拟合,我该如何处理呢?您有什么建议吗?再次感谢您 尝试调节一下学习率,或者测一测能不能过拟合到 loss 为 0
> 您好 ,微调后用自己的数据集进行评测是需要搭建和自己任务相关的模型吗? 嗯嗯,最好在自己任务上面测,如果担心微调后会减弱其他场景能力,也可以在 mteb-zh 的数据上面测。
> https://github.com/wangyuxinwhy/uniem/tree/main/mteb-zh 能否直接读取本地微调后的模型进行一键评测? 如果可以通过 sentence_transformers 加载就可以,指定自己的模型就可以了
具体的模型加载代码可以查看 https://github.com/wangyuxinwhy/uniem/blob/main/mteb-zh/mteb_zh/models.py 比如 sentence_transformers 的加载是这样的,通过指定 model_id 就可以了 ``` python def load_model(model_type: ModelType, model_id: str | None = None) -> MTEBModel: match model_type: case ModelType.sentence_transformer: if model_id is None: raise ValueError('model_name...
代表模型过拟合了,学习率调小一点,或者加一些正则的手段(weight decay 大一点)都可以。
这个数据量不是很好建议,视情况而定,一般来讲多多益善,可以尝试使用 GPT-4 来做数据增强。另外,是不是训练和验证的数据分布差的比较多呀?
如果分布差不多,那可能是数据量比较少,任务比较难。如果你的 test 有标签,可以这么操作,问题不大。
嗯呢,调模型的超参也比较复杂,比较看经验。
这是啥数据集呀?如果是公开的,我也试验一下,这个 validation loss 看起来,模型没有学到东西。