russian_g2p icon indicating copy to clipboard operation
russian_g2p copied to clipboard

Dict of homonyms has 147 words with only one form

Open kdorichev opened this issue 4 years ago • 2 comments

Example:

acc._Accentor__homonyms['моря']
{'NOUN Case=Gen|Gender=Neut|Number=Sing': 'мо+ря'}

This morphotag is also required:

{'NOUN Case=Acc|Gender=Neut|Number=Plur': 'моря+'}

Full list for such entries:

'аэропорту',  'роду', 'иглы',  'совы',  'развито',  'шофер',  'образа',  'округа',  'степи',  'сердца',  'полу',  'холода',  'острова',
 'сорта',  'вечера',  'глаза',  'лесу',  'губы',  'крови',  'вдовы',  'фельдшера',  'полосы',  'доктора',  'смело',  'хлеба',  'тюрьмы',
 'травы',  'опустите',  'луга',  'глазу',  'волков',  'лица',  'кое-что',  'свету',  'крыльца',  'рога',  'орган',  'краю',  'стороны',
 'окна',  'красоты',  'податей',  'тела',  'курите',  'слова',  'кузова',  'слуги',  'золы',  'леса',  'писаря',  'судьбы',  'места',
 'горы',  'пустите',  'входите',  'голоса',  'черепа',  'заросли',  'поля',  'высоты',  'ордена',  'тошноты',  'старине',
 'дела',  'игры',   'хутора',  'токаря',  'моря',  'торопитесь',  'винты',  'города',  'гробу',  'валы',  'соль',  'прибыл',  'глубины',
 'кругу',  'строки',  'луны',  'берегу',  'тона',  'межи',  'ветра',  'купола',  'избы',  'велико',  'нужды',  'отложите',
 'года',  'борту',  'положите',  'погреба',  'века',  'седины',  'реки',  'дома',  'флигеля',  'толпы',  'вышины',  'полотна',
 'письма',  'облака',  'волны',  'земли',  'летами',  'цветов',  'конуса',  'стада',  'снега',  'посмотрите',  'числа',  'волос',
 'величины',  'груди',  'права',  'полудня',  'руки',  'волокна',  'профессора',  'общее',  'лекаря',  'балу',  'тополя',  'учителя',  
 'цепи',  'свечи',  'шары',  'возитесь',  'овцы',  'масла',  'хоры',  'рода',  'кучера',  'доски',  'ружья',  'роста',  'края',  'щели',
 'поезда',  'яйца',  'берега',  'войны',  'страны',  'женитесь',  'бороды',  'головы',  'любите' 

kdorichev avatar Jul 06 '20 10:07 kdorichev

Thank you for your attention! In the near future, we will refactor the Accentor in order for it will be based on ML (namely, RNN) without any dictionary. I think that the mentioned incompleteness of dictionary will be fixed, because there will no dictionary :-)

bond005 avatar Jul 08 '20 08:07 bond005

we will refactor the Accentor in order for it will be based on ML

Cool! Trained on a large corpus, it will definitely allow to elimitare the dictionary for accenting simple words. However, it will unlikely help with homographs, like: за+мок, замо+к. Pehaps it will, given the prhase for context.

kdorichev avatar Jul 09 '20 05:07 kdorichev