TPlinker-joint-extraction icon indicating copy to clipboard operation
TPlinker-joint-extraction copied to clipboard

char span和token span分别指什么

Open macheng6 opened this issue 3 years ago • 11 comments

macheng6 avatar Jun 27 '21 14:06 macheng6

char span是基于字符的实体start和end位置 token span是经过bert tokenizer后,实体所在的新的start和end位置

LimKim avatar Jun 28 '21 03:06 LimKim

char span是基于字符的实体start和end位置 token span是经过bert tokenizer后,实体所在的新的start和end位置

对于中文来说,二者不应该一样吗,中文的bertTokenizer也是基于字符的吧

macheng6 avatar Jun 28 '21 03:06 macheng6

char span是基于字符的实体start和end位置 token span是经过bert tokenizer后,实体所在的新的start和end位置

对于中文来说,二者不应该一样吗,中文的bertTokenizer也是基于字符的吧

全部中文的话,差不多是一样的。 不过你不要考虑这些,你把char span设置好,在preprocess里的BuildData代码里会自动帮你生成tok span

LimKim avatar Jun 28 '21 03:06 LimKim

char span是基于字符的实体start和end位置 token span是经过bert tokenizer后,实体所在的新的start和end位置

对于中文来说,二者不应该一样吗,中文的bertTokenizer也是基于字符的吧

全部中文的话,差不多是一样的。 不过你不要考虑这些,你把char span设置好,在preprocess里的BuildData代码里会自动帮你生成tok span

看不懂代码,然后直接跑感觉不得劲儿

macheng6 avatar Jun 28 '21 03:06 macheng6

@macheng6 中文里也会出现英文单词

131250208 avatar Jun 28 '21 09:06 131250208

@macheng6 中文里也会出现英文单词

嗯嗯,刚仔细看了一下,确实是这样,有char,token和ent(或者称为span)三层结构。还有我发现一个小bug,如果一个句子的第一个span就是ent,并且ent的第一个字符是空格,后面token会出现-1的情况,utils的310的那个函数

macheng6 avatar Jun 28 '21 10:06 macheng6

@macheng6 预处理去掉句子和实体首尾的空格就行了,这些空格是不合法的

131250208 avatar Jun 28 '21 15:06 131250208

char span是基于字符的实体start和end位置 token span是经过bert tokenizer后,实体所在的新的start和end位置

请问,token_span要怎么得到呢?我想将模型应用到我自己标注的小数据集中,但是通过标注只能直接获得char span,这个token span不知道如何处理得到 我的意思是,在ori_data中的训练数据,需要把实体和关系中的tok_span标记出来吗?如果要,要如何得到呢?

Wonderson-wpp avatar Oct 08 '21 06:10 Wonderson-wpp

@Wonderson-wpp 如果你认真看了这个issue的讨论,你应该已经知道答案了。在 @LimKim 的回答里

131250208 avatar Oct 11 '21 02:10 131250208

为啥我本地的还是很多-1的情况

xxllp avatar Mar 16 '22 01:03 xxllp

char span是基于字符的实体start和end位置 token span是经过bert tokenizer后,实体所在的新的start和end位置

对于中文来说,二者不应该一样吗,中文的bertTokenizer也是基于字符的吧

请问如何用一个中文数据集,去转换成 tplinker 格式的数据集,您能给个例子吗,我用百度关系抽取大赛数据集执行builddata.py报错了

lzh1998-jansen avatar Dec 21 '22 09:12 lzh1998-jansen