uie_pytorch icon indicating copy to clipboard operation
uie_pytorch copied to clipboard

微调模型时疑似报错:he OrderedVocab you are attempting to save contains a hole for index 12084, your vocabulary could be corrupted !

Open zjcjason opened this issue 2 years ago • 3 comments

我查询了部分资料,问题可能时出在uie_base_pytorch/vocab.txt中了。但是我无法解决这个问题,希望各位大佬帮忙指导!

zjcjason avatar Jun 03 '23 10:06 zjcjason

这应该是ernie tokenizer的问题,我最近用ernie-3.0的时候也有一样的warning,检查了一下确实是tokenizer里缺了一个(tokenizer.json和vocab.txt里没有12084对应的token)。不过这个应该不影响结果。

LiShaoyu5 avatar Jul 18 '23 09:07 LiShaoyu5

检查一下原始词表是否有重复字符

fatty-tiger avatar Nov 28 '23 05:11 fatty-tiger