Flat-Lattice-Transformer icon indicating copy to clipboard operation
Flat-Lattice-Transformer copied to clipboard

use Falt-Transformer on other corpus

Open ShawnChang-ei opened this issue 3 years ago • 10 comments

请问:如果使用其他数据集,除了数据处理的代码,还要修改别的部分吗

ShawnChang-ei avatar Dec 29 '20 01:12 ShawnChang-ei

应该不需要了

LeeSureman avatar Dec 29 '20 07:12 LeeSureman

谢谢,等测试完来反馈一下效果

ShawnChang-ei avatar Dec 29 '20 07:12 ShawnChang-ei

flat_main.py: param_ = [{'params':non_embedding_param}, {'params':embedding_param, 'lr':args.lr*args.embed_lr_rate}] 1、默认args.embed_lr_rate=1,相当于没有设置单独的学习率; 2、bigram_embedding和lattice_embedding都是由预训练词向量文件所载入,思考是不是使用较小学习率微调即可

ShawnChang-ei avatar Jan 08 '21 03:01 ShawnChang-ei

flat_main.py:lrschedule_callback = LRScheduler(lr_scheduler=LambdaLR(optimizer, lambda ep: 1 / (1 + 0.05*ep) )) 请问这一段的作用是什么呢?学习率调整不是已经在前面定义了么?望指教,谢谢

ShawnChang-ei avatar Jan 08 '21 03:01 ShawnChang-ei

本人在baidu lic2020事件抽取数据集上,测试了Flat-Transformer(without bert)在触发词抽取的表现,目前F1值能达到80%的水平,P值偏低,R值较高,请问作者有好的调参思路么?

ShawnChang-ei avatar Jan 08 '21 03:01 ShawnChang-ei

flat_main.py: param_ = [{'params':non_embedding_param}, {'params':embedding_param, 'lr':args.lr*args.embed_lr_rate}] 1、默认args.embed_lr_rate=1,相当于没有设置单独的学习率; 2、bigram_embedding和lattice_embedding都是由预训练词向量文件所载入,思考是不是使用较小学习率微调即可

是一个调参的思路

LeeSureman avatar Jan 08 '21 03:01 LeeSureman

flat_main.py:lrschedule_callback = LRScheduler(lr_scheduler=LambdaLR(optimizer, lambda ep: 1 / (1 + 0.05*ep) )) 请问这一段的作用是什么呢?学习率调整不是已经在前面定义了么?望指教,谢谢

请问前面定义的学习率调整是指?

LeeSureman avatar Jan 08 '21 03:01 LeeSureman

flat_main.py:lrschedule_callback = LRScheduler(lr_scheduler=LambdaLR(optimizer, lambda ep: 1 / (1 + 0.05*ep) )) 请问这一段的作用是什么呢?学习率调整不是已经在前面定义了么?望指教,谢谢

请问前面定义的学习率调整是指?

optimizer = optim.Adam(param_, lr=args.lr, weight_decay=args.weight_decay) 优化器的学习率衰减,以及momentum设置,另外为何默认使用SGD而不是Adam呢,是做过对比么

ShawnChang-ei avatar Jan 08 '21 03:01 ShawnChang-ei

weight_decay对应的应该是l2正则项,LRScheduler对应的学习率逐渐变小。我实验下来SGD比ADAM好一点

LeeSureman avatar Jan 08 '21 03:01 LeeSureman

weight_decay对应的应该是l2正则项,LRScheduler对应的学习率逐渐变小。我实验下来SGD比ADAM好一点

感谢~

ShawnChang-ei avatar Jan 08 '21 03:01 ShawnChang-ei