ChineseBert icon indicating copy to clipboard operation
ChineseBert copied to clipboard

关于tokenizer

Open jw8023wh opened this issue 3 years ago • 1 comments

在拜读大神的文章和代码,对于tokenizer这里有些不解。 常规的tokenizer可以得到input_ids, 您的代码里的tokenizer可以同时得到input_ids和pinyin_ids,感觉很是神奇, 可否开源您训练tokenizer的代码呀

jw8023wh avatar Nov 30 '21 08:11 jw8023wh

这个其实比较简单,就是之前一个token 映射一个input id, 现在一个token同时对应了一个input id和一个pinyin id。 这个没有训练。就是一个字典的查找。映射字典在这 link

zijunsun avatar Jan 11 '22 03:01 zijunsun