Thove

Results 3 comments of Thove

> 看上去`d[0]`是输入文本`d[1]`是label、你能确保`d[0]`tokenize、转id后的长度与`d[1]`只差头尾的2个token吗 非常感谢您的认真回答

这个问题我可以尝试回答。因为在本案例中,作者将作为每个类别开头的token标记为了 index*2 + 1,也就是BIO中的B;而将作为每个类别中间的tokens都标记为了index *2 + 2,也就是BIO中的I,这一过程请参看class data_generator的代码。因此实际上的label包含同一个标签作为B 和 I 的两种情况,也就是3*2 = 6个标签,再加上O标签也就是什么也不属于的标签,一共是7种。