uie_pytorch
uie_pytorch copied to clipboard
微调模型时疑似报错:he OrderedVocab you are attempting to save contains a hole for index 12084, your vocabulary could be corrupted !
我查询了部分资料,问题可能时出在uie_base_pytorch/vocab.txt中了。但是我无法解决这个问题,希望各位大佬帮忙指导!
这应该是ernie tokenizer的问题,我最近用ernie-3.0的时候也有一样的warning,检查了一下确实是tokenizer里缺了一个(tokenizer.json和vocab.txt里没有12084对应的token)。不过这个应该不影响结果。
检查一下原始词表是否有重复字符