CasRel-pytorch-reimplement
CasRel-pytorch-reimplement copied to clipboard
tokenizer选取
您好,我看您选择的keras_bert的tokenizer,但是我发现分词之后会有在分好的词前面有##,这样会产生些许差异导致在tokens里找不到sub的token组成的列表,进而无法标记。您是怎么处理的呢
你可以尝试把这些##去掉,我当时是为了和原始代码结果保持一致所以保留了,不过我记得保留和去掉结果相差不大
好的,收到。谢谢您的回复,我也是按您说的去掉了##,已经解决了。谢谢您
---原始邮件--- 发件人: @.> 发送时间: 2021年5月24日(周一) 晚上9:57 收件人: @.>; 抄送: @.@.>; 主题: Re: [longlongman/CasRel-pytorch-reimplement] tokenizer选取 (#13)
你可以尝试把这些##去掉,我当时是为了和原始代码结果保持一致所以保留了,不过我记得保留和去掉结果相差不大
— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.
作者你好,看到代码中实现时选的是keras_bert的tokenizer,我理解是为了替换一些特殊token到unused tokens,不知道是否正确,另外,我是否可以使用AutoTokenizer来替换代码中的HBTokenizer呢?
谢谢