TPlinker-joint-extraction
TPlinker-joint-extraction copied to clipboard
eval问题
为什么执行完Evaluation.ipynb之后没有Results? run_ids已设置
no this module,no this code,is there missed?please share this files,thanks
Don't know everyone will encounter this problem, the model run many times, before running structure, will find that model can only load data, at the time of loading model process...
非常感谢作者的论文和代码,但是在复现的时候发现点问题: 1、当序列长度很长时,即解码时,会出现超出token数量的token_span,我查询到应该时decode_rel函数中这三行缩进的问题: ` for ent in ent_list: ent["char_span"] = [ent["char_span"][0] + char_offset, ent["char_span"][1] + char_offset] ent["tok_span"] = [ent["tok_span"][0] + tok_offset, ent["tok_span"][1] + tok_offset] ` 主要是这三行,加在了对关系解码的循环里了,需要缩进回去,跳出循环,对每一个样本做一次这样的操作即可。 如果加循环里面,会导致在每一个样本中,每当有一个关系就会不停的增加offset...,解码的时候就有问题了,会超出长度..出现不可预测的token_span,这个问题也在历史问题中有查到过。 2、我发现解码时如果序列长度设置的很长,会出现一些超出100长度的错误实体被预测出来,其头和尾和正确的短实体一样,是否说明模型太过于关注了头和尾,忽略了长实体中间的信息?如果和训练一样,设置为100,就不会有这样的问题。
datasets
您好,我下载了您的数据集并进行实验, 发现您数据集和论文数据有些出入 NYT*:实际的valid_data是4999,论文中是5000条 NYT中train是56196,论文中是56195 请问这是怎么回事,是您删掉了NYT*valid的一条数据么?
请问tplinker对于无标注数据怎么处理呢?
HandshakingKernel类中的seq_len = seq_hiddens.size()[-2]是不是不太对, 因为是seq_hiddens: (batch_size, seq_len, hidden_size), seq_len = seq_hiddens.size()[-1]好像才对?
感谢作者分享代码,在利用训练好该模型进行预标注的过程中,发现tplinker_plus.py 中的decode_rel有错误 > _head link_ > for sp in matrix_spots: > ........... > _# recover the positons in the original text_ > for ent in ent_list: > ent["char_span"] = [ent["char_span"][0]...
我将train样本减少到10000个,batch_size=55,用的nyt_star,训练的时候f1一直是0,这是怎么回事呢?搞不明白,我是新手