Jason Zhang
Jason Zhang
> 请问你这个最后的f1是多少? @llcing 请问你用这份代码跑了多少呢?
请问这个issue的问题解决了吗?
感谢推荐公众号!我的意思楼主好像没看明白哈,你在构造长度特征包含BIE和S共4个长度,这个和词表的长度没关系吧?词表里面任何一个词在映射到长度特征的id可选择的只有(BIE和S共4个长度),所以我认为构造**词表初始化矩阵**的时候应该是4*dim也就是4*20,麻烦楼主再看下,因为我换成4*20的,跑起来是没任何bug的。
我觉得pad的id到向量映射不应该体现在**初始化长度特征矩阵里面**,长度特征矩阵应该是一个单独的向量矩阵,可供选择的只有[0,1,2,3]; pad的id到向量映射索引应该在char_embedding里面存在,也就是在您的项目里面采用的是预训练的vec.txt里面,这是另外一个单独的向量矩阵; 两者在向量化索引的过程中互相不影响吧?
您好!请问“gigaword_chn.all.a2b.bi.ite50.vec”是用作文中bichar的特征文件吧? 另外我请教下文中提及的对照实验的添加方法(softword和ExSoftword)特征,在实验中可以使用one-hot的方式在char或者bichar特征后面直接拼接吗?
非常感谢@xinwei 的认真答疑和帮助!我上面提供的日志,跑之前是用‘./data/vocab.txt’ 替换bert原始的vocab.txt的,现在我建了一个虚拟环境,所有的环境参数都和你给出的是一样的,现在的报错应该还是分布式的错误,我还在找错误的解决方案,我考虑把分布式换成单卡训练,看看是否有效~ 错误日志如下: terminate called after throwing an instance of 'c10::Error' what(): CUDA error: device-side assert triggered Exception raised from create_event_internal at /opt/conda/conda-bld/pytorch_1607370144807/work/c10/cuda/CUDACachingAllocator.cpp:687 (most recent call first): frame #0:...
感谢@xinwei,经测试是apex的版本问题,已经解决跑通了。 按照paper参数跑实验,目前最好一轮的测试集效果目前是71.9左右(可能随机数生成的机制有差异,结果与之前的略有不同)然后我测试一下去掉Relational Reasoning Regularization模块(具体操作:令sigma=0),看log日志中最好一轮的测试集上F1=72.6。 麻烦@xinwei,另外想请教一下: 1、我去掉R3的操作(具体操作:直接令sigma=0,原文是0.1)是否存在问题呢? 2、另外实验过程中指标比较震荡,我是挑选的最好一轮的测试集的F1=71.9,这样是否存在问题?(PS:模型最终打印的是验证集上最好的一轮效果,我上面的指标给的是测试集上最好的一轮结果)