Замена буквы "й" на "и" в токенайзере ruBert-base
Привет! Возможно это уже обнаруживали ранее, однако мне не удалось найти информации по этому вопросу При использовании токенайзера ruBert-base буква "й" заменяется на "и", пример приведён ниже. Мне бы хотелось узнать, на каком именно этапе это происходит, если это сделано специально - то для чего, и можно ли переопределить это поведение при использовании модели?
input: 'Из-за повреждений теплосети произошло скопление пара, которое затруднило движение автомобилей и пешеходов из-за плохой видимости и опасности горячего теплоносителя на проезжей части.'
output: [CLS] из - за повреждении теплосети произошло скопление пара, которое затруднило движение автомобилеи и пешеходов из - за плохои видимости и опасности горячего теплоносителя на проезжеи части. [SEP]