pcx-pcx

Results 3 comments of pcx-pcx

> 非常感谢作者的论文和代码,但是在复现的时候发现点问题: > > 1、当序列长度很长时,即解码时,会出现超出token数量的token_span,我查询到应该时decode_rel函数中这三行缩进的问题: ` for ent in ent_list: > > ``` > ent["char_span"] = [ent["char_span"][0] + char_offset, ent["char_span"][1] + char_offset] > > ent["tok_span"] = [ent["tok_span"][0] + tok_offset, ent["tok_span"][1]...

> > 楼上没搞清楚在乱说,首先要搞清楚[SEP]是句子末尾的标记符号,其对应的label是[END],具体可在ner_seq.py 文件中看到。这里应该填写的是[SEP]对应的label,即[END],而不是直接填写[SEP] > > 我知道有start和end标签,但是softmax分类的模型在做评估的时候句子末尾是没有[END]的,在跑模型的时候设置[END]会无法判断句子结束从而导致不更新acc和re,评估结果都是0,我在做打印输出的时候看到了句子结尾都是补全的0,所以我才投机取巧默认遇到padding的0就是句子结束,我承认我这是投机取巧但是也不是乱说啊,我只是一个刚接触NLP的菜鸡研究生,只是把自己的解决办法说了出来我也不是故意在这坑人的 不好意思哈,鲁莽了,请忽略我之前讲的话哈。其实这里metric要更新的话,条件应该是到real句子(未padding的句子)末尾最后一个token,也即[END],所以需要用到batch中的real句子长度信息,这个其实已经在batch[4]里面记录了,详细可以看ner_seq.py中的convert_examples_to_features函数和collate_fn函数的输出

不好意思哈,鲁莽了,请忽略我之前讲的话哈。其实这里metric要更新的话,条件应该是到real句子(未padding的句子)末尾最后一个token,也即[END],所以需要用到batch中的real句子长度信息,这个其实已经在batch[4]里面记录了,详细可以看ner_seq.py中的convert_examples_to_features函数和collate_fn函数的输出。 ------------------ 原始邮件 ------------------ 发件人: "CLUEbenchmark/CLUENER2020" ***@***.***>; 发送时间: 2021年11月16日(星期二) 晚上7:08 ***@***.***>; ***@***.******@***.***>; 主题: Re: [CLUEbenchmark/CLUENER2020] pytorch版本的softmax下206行的args.label2id['[SEP]'] (Issue #67) 楼上没搞清楚在乱说,首先要搞清楚[SEP]是句子末尾的标记符号,其对应的label是[END],具体可在ner_seq.py 文件中看到。这里应该填写的是[SEP]对应的label,即[END],而不是直接填写[SEP] 我知道有start和end标签,但是sofamax分类的模型在做评估的时候句子末尾是没有[END]的,在跑模型的时候设置[END]会无法判断句子结束从而导致不更新acc和re,评估结果都是0,我在做打印输出的时候看到了句子结尾都是补全的0,所以我才投机取巧默认遇到padding的0就是句子结束,我承认我这是投机取巧但是也不是乱说啊,你跑一下试试就知道了。 — You are receiving this because you commented. Reply to this email directly,...