tomita-parser icon indicating copy to clipboard operation
tomita-parser copied to clipboard

Как отключить автоматическую коррекцию ошибок?

Open mnvx opened this issue 8 years ago • 3 comments

Я использую Томита Парсер для разделения текста на предложения.

Поясню проблему. Тут анализируется текст, полностью написанный английскими буквами. Тут все хорошо.

echo "Andoroid Pay." | tomita-linux64 TomitaConfig/config.proto
[27:12:16 12:46:18] - Start.  (Processing files.)
Andoroid Pay . 
[27:12:16 12:46:18] - End.  (Processing files.)

Получаются такие ASCII-коды: 65 110 100 111 114 111 105 100 32 80 97 121 32 46

Тут анализируется текст, в котором последняя буква - это русская буква "у".

echo "Andoroid Paу." | tomita-linux64 TomitaConfig/config.proto
[27:12:16 12:46:28] - Start.  (Processing files.)
Andoroid Рау . 
[27:12:16 12:46:28] - End.  (Processing files.)

Получаются такие ASCII-коды: 65 110 100 111 114 111 105 100 32 208 160 208 176 209 131 32 46

То есть во втором случае некорректно написанное слово "Paу" преобразовалось в русское слово "Рау". У меня специфика проекта такова, что автокоррекция ошибок не нужна и даже мешает. Хотелось бы отключить ее, но не вижу в документации, как это можно сделать. Подскажите пожалуйста.

mnvx avatar Dec 27 '16 09:12 mnvx

Скорее всего это не томита сделала, а mystem. Попробую воспроизвести. Что у вас в конфиге написано?

Вы сами собирали томиту или с сайта yandex скачали собранную?

vbocharov avatar Mar 12 '17 19:03 vbocharov

Скачал собранный бинарник для Linux x64 с сайта Яндекса.

Мой config.proto:

encoding "utf8";

TTextMinerConfig {

    // Корневой словарь
    Dictionary = "segmentator_dict.gzt";

    // Формат вывода данных
    Output = {
        Format = text;
    }

    // Количество потоков
    //NumThreads = 4;

}

segmentator_dict.gzt:

encoding "utf8";               // указываем кодировку, в которой написан этот файл

import "base.proto";           // подключаем описания protobuf-типов (TAuxDicArticle и прочих)
import "articles_base.proto";  // Файлы base.proto и articles_base.proto встроены в компилятор.
                               // Их необходимо включать в начало любого gzt-словаря.

// Подробности тут: https://github.com/yandex/tomita-parser/issues/46

TAbbreviation "г." { 
  key = { "abbreviation_г." type = CUSTOM }
  text = "г."
  type = NewerEOS
}

TAbbreviation "ул." { 
  key = { "abbreviation_г." type = CUSTOM }
  text = "ул."
  type = NewerEOS
}

TAbbreviation "кв." { 
  key = { "abbreviation_г." type = CUSTOM }
  text = "кв."
  type = NewerEOS
}

mnvx avatar Mar 12 '17 19:03 mnvx

Спасибо. Воспроизвелось. На текущей версии (с гитхаба) тоже.

vbocharov avatar Mar 13 '17 18:03 vbocharov