在拜读大神的文章和代码,对于tokenizer这里有些不解。 常规的tokenizer可以得到input_ids, 您的代码里的tokenizer可以同时得到input_ids和pinyin_ids,感觉很是神奇, 可否开源您训练tokenizer的代码呀
这个其实比较简单,就是之前一个token 映射一个input id, 现在一个token同时对应了一个input id和一个pinyin id。 这个没有训练。就是一个字典的查找。映射字典在这 link