Сприймати японські гонорифіки як окремі токени
Перекладачі з японської часто залишають у перекладі гонорифіки, що використовуються у японській. Вони пишуться після імені через дефіс і повинні сприйматися як окремі токени:
- кун.
– Як мається Нісіяма-кун ?
- чян, тян, цян.
А Ітару-цян міг знати це від самого початку .
І фото , і картина , де жінки з японськими зачісками , — все це в неї « Кома-тян » .
- сан
Окада-сан , ви коли-небудь бували на Мальті ?
-
сама Після вдаваної тридцятисекундної перевірки щитка Аомаме звернулася до Міями : — Щиро дякую за допомогу , Міяма-сама .
-
доно — Сімбей-доно , маю до вас велике прохання , — звернувся до Накамури з низьким поклоном красень-самурай , який щойно сягнув повноліття .
-
сенсей
Тим паче що Ватая-сенсей не жив зі своєю дружиною , з якою розлучився , нормальним статевим життям …
Наскільки мені відомо, усі ці слова, крім «сенсей», відсутні у ВЕСУМі
Наразі були вирішено, що лише українські частки, що пишуться через дефіс тегуються, як окремі токени. Іноземні частки (переважно) не є окремою одиницею в українській і тому тегуються разом (напр. Ла-Манш). Деякі з таких часток з іменами розпізнаються тегувальником динамічно, напр. Петро-сан та Петро-сенсей буде розпізнано (але як один токен). Але їх розпізнавання залежить від набору часток, про які тегувальник знає і наявністю імені в словнику. Обидві присутності визначаються достатньою (= великою) частотністю в українських текстах. @vstarko
Підтверджую. Ми вже розпізнаємо деякі слова (як один токен) із -сан: Окада-сан, Куміко-сан (бо Окада й Куміко є у ВЕСУМі). Натомість Нобору-сан, Крита-сан тощо не розпізнаємо, бо перших частин у словнику немає. Тож потрібно спершу наповнити словник високочастотними японськими іменами, а потім додати в тегувальник логіку, щоб розпізнавав їх не лише із -сан, а й з іншими гонорифіками.