TPlinker-joint-extraction char span和token span分别指什么

Jun 27 '21 14:06 macheng6

char span是基于字符的实体start和end位置 token span是经过bert tokenizer后，实体所在的新的start和end位置

Jun 28 '21 03:06 LimKim

char span是基于字符的实体start和end位置 token span是经过bert tokenizer后，实体所在的新的start和end位置

对于中文来说，二者不应该一样吗，中文的bertTokenizer也是基于字符的吧

Jun 28 '21 03:06 macheng6

char span是基于字符的实体start和end位置 token span是经过bert tokenizer后，实体所在的新的start和end位置

对于中文来说，二者不应该一样吗，中文的bertTokenizer也是基于字符的吧

全部中文的话，差不多是一样的。不过你不要考虑这些，你把char span设置好，在preprocess里的BuildData代码里会自动帮你生成tok span

Jun 28 '21 03:06 LimKim

char span是基于字符的实体start和end位置 token span是经过bert tokenizer后，实体所在的新的start和end位置

对于中文来说，二者不应该一样吗，中文的bertTokenizer也是基于字符的吧

全部中文的话，差不多是一样的。不过你不要考虑这些，你把char span设置好，在preprocess里的BuildData代码里会自动帮你生成tok span

看不懂代码，然后直接跑感觉不得劲儿

Jun 28 '21 03:06 macheng6

@macheng6 中文里也会出现英文单词

Jun 28 '21 09:06 131250208

@macheng6 中文里也会出现英文单词

嗯嗯，刚仔细看了一下，确实是这样，有char，token和ent（或者称为span）三层结构。还有我发现一个小bug，如果一个句子的第一个span就是ent，并且ent的第一个字符是空格，后面token会出现-1的情况，utils的310的那个函数

Jun 28 '21 10:06 macheng6

@macheng6 预处理去掉句子和实体首尾的空格就行了，这些空格是不合法的

Jun 28 '21 15:06 131250208

char span是基于字符的实体start和end位置 token span是经过bert tokenizer后，实体所在的新的start和end位置

请问，token_span要怎么得到呢？我想将模型应用到我自己标注的小数据集中，但是通过标注只能直接获得char span,这个token span不知道如何处理得到我的意思是，在ori_data中的训练数据，需要把实体和关系中的tok_span标记出来吗？如果要，要如何得到呢？

Oct 08 '21 06:10 Wonderson-wpp

@Wonderson-wpp 如果你认真看了这个issue的讨论，你应该已经知道答案了。在 @LimKim 的回答里

Oct 11 '21 02:10 131250208

为啥我本地的还是很多-1的情况

Mar 16 '22 01:03 xxllp

char span是基于字符的实体start和end位置 token span是经过bert tokenizer后，实体所在的新的start和end位置

对于中文来说，二者不应该一样吗，中文的bertTokenizer也是基于字符的吧

请问如何用一个中文数据集，去转换成 tplinker 格式的数据集，您能给个例子吗，我用百度关系抽取大赛数据集执行builddata.py报错了

Dec 21 '22 09:12 lzh1998-jansen

TPlinker-joint-extraction TPlinker-joint-extraction copied to clipboard

char span和token span分别指什么

TPlinker-joint-extraction
TPlinker-joint-extraction copied to clipboard