Zhanye Yang
Zhanye Yang
如果要加载fengshenbang的erlangshen3.9B模型进行训练应该如何配置,transformers 2.10.0不含有megatron-bert架构的config
继续训练效果
您好,关于之前预测时不能得到标签的问题,除了取阈值,我采取的方式为,先用在snli上有监督simcse训练得到checkpoint,计算spearman系数和您表格中的效果差不多。然后在simcse上再加上一层mlp在snli上微调,类似于如下形式: ``` class SimCSE_with_mlp(nn.Module): def __init__(self, SimCSE_model): super(SimCSE_with_mlp, self).__init__() self.SimCSE = SimCSE_model self.linear = nn.Linear(2*768,3) def forward(self, input_ids1, attention_mask1, token_type_ids1, input_ids2, attention_mask2, token_type_ids2): output1 = self.SimCSE(input_ids1, attention_mask1, token_type_ids1) output2 =...
Dureader-vis的baseline或者对应的模型多久公布?
请问windows下微调什么时候发布呢?
When I run multi_gpu_trainer.py, the program suddenly stops without any error.
请问将环境的onnx runtime改为onnx runtime-gpu后将这两个模型的启动方式都改成gpu,是否就可以在gpu上运行了?另外,这两个模型的异步运行后端代码是否可用?