CasRel-pytorch-reimplement icon indicating copy to clipboard operation
CasRel-pytorch-reimplement copied to clipboard

tokenizer选取

Open seokjin954 opened this issue 3 years ago • 3 comments

您好,我看您选择的keras_bert的tokenizer,但是我发现分词之后会有在分好的词前面有##,这样会产生些许差异导致在tokens里找不到sub的token组成的列表,进而无法标记。您是怎么处理的呢

seokjin954 avatar May 19 '21 04:05 seokjin954

你可以尝试把这些##去掉,我当时是为了和原始代码结果保持一致所以保留了,不过我记得保留和去掉结果相差不大

longlongman avatar May 24 '21 13:05 longlongman

好的,收到。谢谢您的回复,我也是按您说的去掉了##,已经解决了。谢谢您

---原始邮件--- 发件人: @.> 发送时间: 2021年5月24日(周一) 晚上9:57 收件人: @.>; 抄送: @.@.>; 主题: Re: [longlongman/CasRel-pytorch-reimplement] tokenizer选取 (#13)

你可以尝试把这些##去掉,我当时是为了和原始代码结果保持一致所以保留了,不过我记得保留和去掉结果相差不大

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.

seokjin954 avatar May 24 '21 14:05 seokjin954

作者你好,看到代码中实现时选的是keras_bert的tokenizer,我理解是为了替换一些特殊token到unused tokens,不知道是否正确,另外,我是否可以使用AutoTokenizer来替换代码中的HBTokenizer呢?

谢谢

shihanmax avatar Sep 15 '21 08:09 shihanmax