russian_g2p
russian_g2p copied to clipboard
Dict of homonyms has 147 words with only one form
Example:
acc._Accentor__homonyms['моря']
{'NOUN Case=Gen|Gender=Neut|Number=Sing': 'мо+ря'}
This morphotag is also required:
{'NOUN Case=Acc|Gender=Neut|Number=Plur': 'моря+'}
Full list for such entries:
'аэропорту', 'роду', 'иглы', 'совы', 'развито', 'шофер', 'образа', 'округа', 'степи', 'сердца', 'полу', 'холода', 'острова',
'сорта', 'вечера', 'глаза', 'лесу', 'губы', 'крови', 'вдовы', 'фельдшера', 'полосы', 'доктора', 'смело', 'хлеба', 'тюрьмы',
'травы', 'опустите', 'луга', 'глазу', 'волков', 'лица', 'кое-что', 'свету', 'крыльца', 'рога', 'орган', 'краю', 'стороны',
'окна', 'красоты', 'податей', 'тела', 'курите', 'слова', 'кузова', 'слуги', 'золы', 'леса', 'писаря', 'судьбы', 'места',
'горы', 'пустите', 'входите', 'голоса', 'черепа', 'заросли', 'поля', 'высоты', 'ордена', 'тошноты', 'старине',
'дела', 'игры', 'хутора', 'токаря', 'моря', 'торопитесь', 'винты', 'города', 'гробу', 'валы', 'соль', 'прибыл', 'глубины',
'кругу', 'строки', 'луны', 'берегу', 'тона', 'межи', 'ветра', 'купола', 'избы', 'велико', 'нужды', 'отложите',
'года', 'борту', 'положите', 'погреба', 'века', 'седины', 'реки', 'дома', 'флигеля', 'толпы', 'вышины', 'полотна',
'письма', 'облака', 'волны', 'земли', 'летами', 'цветов', 'конуса', 'стада', 'снега', 'посмотрите', 'числа', 'волос',
'величины', 'груди', 'права', 'полудня', 'руки', 'волокна', 'профессора', 'общее', 'лекаря', 'балу', 'тополя', 'учителя',
'цепи', 'свечи', 'шары', 'возитесь', 'овцы', 'масла', 'хоры', 'рода', 'кучера', 'доски', 'ружья', 'роста', 'края', 'щели',
'поезда', 'яйца', 'берега', 'войны', 'страны', 'женитесь', 'бороды', 'головы', 'любите'
Thank you for your attention! In the near future, we will refactor the Accentor in order for it will be based on ML (namely, RNN) without any dictionary. I think that the mentioned incompleteness of dictionary will be fixed, because there will no dictionary :-)
we will refactor the Accentor in order for it will be based on ML
Cool! Trained on a large corpus, it will definitely allow to elimitare the dictionary for accenting simple words.
However, it will unlikely help with homographs, like: за+мок
, замо+к
. Pehaps it will, given the prhase for context.