russian_stt_text_normalization icon indicating copy to clipboard operation
russian_stt_text_normalization copied to clipboard

Примеры, на которых модель отрабатывает неверно

Open Islanna opened this issue 4 years ago • 9 comments

Тикет с логом всех найденных багов, которые планируется включить в следующий релиз.

Islanna avatar Mar 11 '20 06:03 Islanna

Добавить в датасет:

  • окончание -ая: 1-ая;
  • точка вместо десятичной запятой: 9.5 грамм;
  • одно число с десятичной запятой, без слов вокруг: 32,5;
  • квартира: 25 квартира;
  • кабинет: 24 кабинет;
  • руб., $, : 500 руб.;
  • = как равно;

Пофиксить кейсы с ч-часами и г-годами.

Islanna avatar Mar 11 '20 07:03 Islanna

Hi: I'm a TTS researcher working in china. Only model file is provided in your repo. Could you share with us how you train your s2s model and what the difference of model structure between the paper bellow. https://arxiv.org/abs/1911.04128

casioexlim avatar Mar 23 '20 02:03 casioexlim

Hi @casioexlim We were not planning on sharing this

snakers4 avatar Mar 23 '20 03:03 snakers4

Проблемы с шестизначными и более числами.

768324: семьсот шестьдесят восемь триста двадцать четыре. (триады без множителя "тысяч") 100000: сто три ноля ноль. (результат странный) 201000: двести один тысяч. (нет склонения) 7683241: семь шесть восемь три два четыре один. (семизначное, разбивает на отдельные цифры)

Версии пакетов: numpy 1.19.4 torch 1.8.0.dev20201201+cpu

LecronRu avatar Dec 02 '20 10:12 LecronRu

Проблемы с династическими именами:

Для женских пытается склонять, но в мужском роде и с ошибкой падежей. Екатерина II: Екатерина второго. Екатерину II: Екатерину второй.

Для мужских склонять не пытается. Павлу II: Павлу два. Павла II: Павла два.

LecronRu avatar Dec 02 '20 10:12 LecronRu

Проблема с сокращениями:

  • т.е. - то есть
  • ч.т.д. - что и требовалось доказать

alxmamaev avatar Dec 07 '20 19:12 alxmamaev

Проблемы с шестизначными и более числами.

Не баг, а фича, как говорится. Обычно люди читают большие числа по цифрам, если это, например, номер заказа. Либо по триадам, если это индекс или номер телефона.

За остальные примеры спасибо! Добавим в датасет.

Islanna avatar Dec 09 '20 08:12 Islanna

Обычно люди читают большие числа по цифрам, если это, например, номер заказа. Либо по триадам, если это индекс или номер телефона.

В любом случае, вместо цифр нужны триады. Очень неудачно смотрится "Цена автомобиля три восемь четыре четыре ноль ноль ноль рублей." Оптимально, привязать произношение к контексту. Для телефона будет одно, для №/заказа — другое, для остального, в том числе рублей/километров — третье.

Сейчас намёки есть, но тоже с ошибкой. Расстояние до луны... 384 400 км. (сокращение с разделением триад пробелом) пишет правильно: триста восемьдесят четыре тысячи четыреста километров. Остальные варианты, без разделения или с полным словом — 384400 км., 384 400 километров., 384400 километров., — пишет триадами : триста восемьдесят четыре четыреста километров.

LecronRu avatar Dec 09 '20 10:12 LecronRu

А когда планируется обновление модели?

alxmamaev avatar Dec 14 '20 11:12 alxmamaev