pcx-pcx comments

Results 3 comments of


                                            pcx-pcx

代码可能有个地方写错了,decode_rel函数中循环增加offset，当序列长度比较大的时候，会出现超出token长度的token_span数值。

> 非常感谢作者的论文和代码，但是在复现的时候发现点问题： > > 1、当序列长度很长时，即解码时，会出现超出token数量的token_span，我查询到应该时decode_rel函数中这三行缩进的问题： ` for ent in ent_list: > > ``` > ent["char_span"] = [ent["char_span"][0] + char_offset, ent["char_span"][1] + char_offset] > > ent["tok_span"] = [ent["tok_span"][0] + tok_offset, ent["tok_span"][1]...

pytorch版本的softmax下206行的args.label2id['[SEP]']

> > 楼上没搞清楚在乱说，首先要搞清楚[SEP]是句子末尾的标记符号，其对应的label是[END]，具体可在ner_seq.py 文件中看到。这里应该填写的是[SEP]对应的label，即[END]，而不是直接填写[SEP] > > 我知道有start和end标签，但是softmax分类的模型在做评估的时候句子末尾是没有[END]的，在跑模型的时候设置[END]会无法判断句子结束从而导致不更新acc和re，评估结果都是0，我在做打印输出的时候看到了句子结尾都是补全的0，所以我才投机取巧默认遇到padding的0就是句子结束，我承认我这是投机取巧但是也不是乱说啊，我只是一个刚接触NLP的菜鸡研究生，只是把自己的解决办法说了出来我也不是故意在这坑人的不好意思哈，鲁莽了，请忽略我之前讲的话哈。其实这里metric要更新的话，条件应该是到real句子（未padding的句子）末尾最后一个token，也即[END]，所以需要用到batch中的real句子长度信息，这个其实已经在batch[4]里面记录了，详细可以看ner_seq.py中的convert_examples_to_features函数和collate_fn函数的输出

pytorch版本的softmax下206行的args.label2id['[SEP]']

不好意思哈，鲁莽了，请忽略我之前讲的话哈。其实这里metric要更新的话，条件应该是到real句子（未padding的句子）末尾最后一个token，也即[END]，所以需要用到batch中的real句子长度信息，这个其实已经在batch[4]里面记录了，详细可以看ner_seq.py中的convert_examples_to_features函数和collate_fn函数的输出。 ------------------ 原始邮件 ------------------ 发件人: "CLUEbenchmark/CLUENER2020" ***@***.***>; 发送时间: 2021年11月16日(星期二) 晚上7:08 ***@***.***>; ***@***.******@***.***>; 主题: Re: [CLUEbenchmark/CLUENER2020] pytorch版本的softmax下206行的args.label2id['[SEP]'] (Issue #67) 楼上没搞清楚在乱说，首先要搞清楚[SEP]是句子末尾的标记符号，其对应的label是[END]，具体可在ner_seq.py 文件中看到。这里应该填写的是[SEP]对应的label，即[END]，而不是直接填写[SEP] 我知道有start和end标签，但是sofamax分类的模型在做评估的时候句子末尾是没有[END]的，在跑模型的时候设置[END]会无法判断句子结束从而导致不更新acc和re，评估结果都是0，我在做打印输出的时候看到了句子结尾都是补全的0，所以我才投机取巧默认遇到padding的0就是句子结束，我承认我这是投机取巧但是也不是乱说啊，你跑一下试试就知道了。 — You are receiving this because you commented. Reply to this email directly,...