nlp_uk Сприймати японські гонорифіки як окремі токени

Перекладачі з японської часто залишають у перекладі гонорифіки, що використовуються у японській. Вони пишуться після імені через дефіс і повинні сприйматися як окремі токени:

кун.

– Як мається Нісіяма-кун ?

чян, тян, цян.

А Ітару-цян міг знати це від самого початку .

І фото , і картина , де жінки з японськими зачісками , — все це в неї « Кома-тян » .

сан

Окада-сан , ви коли-небудь бували на Мальті ?

сама Після вдаваної тридцятисекундної перевірки щитка Аомаме звернулася до Міями : — Щиро дякую за допомогу , Міяма-сама .
доно — Сімбей-доно , маю до вас велике прохання , — звернувся до Накамури з низьким поклоном красень-самурай , який щойно сягнув повноліття .
сенсей

Тим паче що Ватая-сенсей не жив зі своєю дружиною , з якою розлучився , нормальним статевим життям …

Наскільки мені відомо, усі ці слова, крім «сенсей», відсутні у ВЕСУМі

Oct 25 '24 08:10 bicolino34

Наразі були вирішено, що лише українські частки, що пишуться через дефіс тегуються, як окремі токени. Іноземні частки (переважно) не є окремою одиницею в українській і тому тегуються разом (напр. Ла-Манш). Деякі з таких часток з іменами розпізнаються тегувальником динамічно, напр. Петро-сан та Петро-сенсей буде розпізнано (але як один токен). Але їх розпізнавання залежить від набору часток, про які тегувальник знає і наявністю імені в словнику. Обидві присутності визначаються достатньою (= великою) частотністю в українських текстах. @vstarko

Oct 26 '24 22:10 arysin

Підтверджую. Ми вже розпізнаємо деякі слова (як один токен) із -сан: Окада-сан, Куміко-сан (бо Окада й Куміко є у ВЕСУМі). Натомість Нобору-сан, Крита-сан тощо не розпізнаємо, бо перших частин у словнику немає. Тож потрібно спершу наповнити словник високочастотними японськими іменами, а потім додати в тегувальник логіку, щоб розпізнавав їх не лише із -сан, а й з іншими гонорифіками.

Oct 30 '24 15:10 vstarko