jurluo

Results 8 comments of jurluo

attention layer相当于是共享的参数,其他layer的相当于是私有的参数。需要通过dropout降低过拟合(train的f1后期可以超过0.99),对共享layer进行dropout不会对分类结果产生(训练/测试)不一致的影响;然而如果直接对私有layer进行dropout会对结果产生(训练/测试)不一致的影响。对私有layer产生最小影响的其中一种共享layer方式就是共享一个attention score。

> > 准确率 > > 这个计算公式 意思是? kpi就是模型的累积准确率。一开始先做一个kpi的最小值限制,然后做一个kpi最大值限制。然后令当前任务的loss的权重为公式所示,相当于给准确率高的任务更低的loss权重,准确率低的任务更高的loss权重,平衡任务的难易程度

刚刚修复了,我得错,抱歉。 具体是因为 flower = tokenizer([data_dict[idx]['s1'] for idx in cur_ids_list], add_special_tokens=True, padding=True, return_tensors='pt') 在inference的时候tokenize设置了一个max_len,然后传参数的时候传成一个True,导致整个句子tokenize完之后全部都是padding,没有任何文本的embedding。 非常抱歉!

不行吧,我的k-flod的意思只是,找这k个模型之中最好的去提交,哈哈

感觉上就是选一个验证集最好的然后用非常非常非常小的学习率在(训练集+验证集)上训练一个epoch,瞎猜的,没时间试

pytorch 版本 1.6.0 cuda 10.2 你看看readme

直接把huggingface那个页面对应的模型的相关文件全部下载然后全部丢进去