tomita-parser
tomita-parser copied to clipboard
Как отключить автоматическую коррекцию ошибок?
Я использую Томита Парсер для разделения текста на предложения.
Поясню проблему. Тут анализируется текст, полностью написанный английскими буквами. Тут все хорошо.
echo "Andoroid Pay." | tomita-linux64 TomitaConfig/config.proto
[27:12:16 12:46:18] - Start. (Processing files.)
Andoroid Pay .
[27:12:16 12:46:18] - End. (Processing files.)
Получаются такие ASCII-коды: 65 110 100 111 114 111 105 100 32 80 97 121 32 46
Тут анализируется текст, в котором последняя буква - это русская буква "у".
echo "Andoroid Paу." | tomita-linux64 TomitaConfig/config.proto
[27:12:16 12:46:28] - Start. (Processing files.)
Andoroid Рау .
[27:12:16 12:46:28] - End. (Processing files.)
Получаются такие ASCII-коды: 65 110 100 111 114 111 105 100 32 208 160 208 176 209 131 32 46
То есть во втором случае некорректно написанное слово "Paу" преобразовалось в русское слово "Рау". У меня специфика проекта такова, что автокоррекция ошибок не нужна и даже мешает. Хотелось бы отключить ее, но не вижу в документации, как это можно сделать. Подскажите пожалуйста.
Скорее всего это не томита сделала, а mystem. Попробую воспроизвести. Что у вас в конфиге написано?
Вы сами собирали томиту или с сайта yandex скачали собранную?
Скачал собранный бинарник для Linux x64 с сайта Яндекса.
Мой config.proto:
encoding "utf8";
TTextMinerConfig {
// Корневой словарь
Dictionary = "segmentator_dict.gzt";
// Формат вывода данных
Output = {
Format = text;
}
// Количество потоков
//NumThreads = 4;
}
segmentator_dict.gzt:
encoding "utf8"; // указываем кодировку, в которой написан этот файл
import "base.proto"; // подключаем описания protobuf-типов (TAuxDicArticle и прочих)
import "articles_base.proto"; // Файлы base.proto и articles_base.proto встроены в компилятор.
// Их необходимо включать в начало любого gzt-словаря.
// Подробности тут: https://github.com/yandex/tomita-parser/issues/46
TAbbreviation "г." {
key = { "abbreviation_г." type = CUSTOM }
text = "г."
type = NewerEOS
}
TAbbreviation "ул." {
key = { "abbreviation_г." type = CUSTOM }
text = "ул."
type = NewerEOS
}
TAbbreviation "кв." {
key = { "abbreviation_г." type = CUSTOM }
text = "кв."
type = NewerEOS
}
Спасибо. Воспроизвелось. На текущей версии (с гитхаба) тоже.