rohan4600 icon indicating copy to clipboard operation
rohan4600 copied to clipboard

カタカナで表記されたルビについて

Open darashi opened this issue 3 years ago • 2 comments

カタカナで表記されたルビが複数あることに気がつきました。どのように修正すべきかは方針にもよるかと思いますので、ひとまずご報告いたします。

以下のような Python スクリプトで確認しました。

import regex

with open("Rohan4600_transcript_utf8.txt") as f:
    for line in f:
        line = line.strip()
        rubies = regex.findall(r"\(([^)]*)\)", line)
        katakana_rubies = [r for r in rubies if regex.search(r"\p{Script=Katakana}", r)]

        if katakana_rubies:
            print(line)
            print(katakana_rubies)
            print()

実行結果は以下のとおりです。

ROHAN4600_0329:ヒェロニムはケチで、真夏(まなつ)でも十(ジュッ)キロ離(はな)れた百均(ひゃっきん)へ、チャリで走(はし)る。,ヒェロニムワケチデ、マナツデモジュッキロハナレタヒャッキンエ、チャリデハシル。
['ジュッ']

ROHAN4600_0961:スウェーデンで拉麺(ラーメン)を食(た)べるなら、ヒュースクヴァーナがお勧(すす)めだな。,スウェーデンデラーメンヲタベルナラ、ヒュースクヴァーナガオススメダナ。
['ラーメン']

ROHAN4600_1983:点字(テンジ)のことで略式(りゃくしき)起訴(きそ)されたが、友(とも)のエールで夜(よる)は眠(ねむ)れる。,テンジノコトデリャクシキキソサレタガ、トモノエールデヨルワネムレル。
['テンジ']

ROHAN4600_3414:貯蓄(ちょちく)したお金(かね)で、ヒューレットパッカードのGPU(ジーピーユー)を備(そな)えたPC(ピーシー)を買(か)います。,チョチクシタオカネデ、ヒューレットパッカードノジーピーユーヲソナエタピーシーヲカイマス。
['ジーピーユー', 'ピーシー']

これらの結果のうち、

  • 0329 十(ジュッ)
  • 1983 点字(テンジ)

は、いずれも平仮名で表記されるのが自然に思われます。

また、 4302 には「炒飯(ちゃーはん)」という表記があることから、

  • 0961 拉麺(ラーメン)

も平仮名で表記されていたほうが一貫性がありそうです。

残る

  • 3414 GPU(ジーピーユー)
  • 3414 PC(ピーシー)

は英字に対するルビがここだけなので判断が難しいのですが、すべて平仮名で表記するという方針であれば、こちらも平仮名とするのがよいでしょうか。

ご確認、ご検討いただければ幸いです。

darashi avatar Sep 23 '22 06:09 darashi

ありがとうございます.これから,全部平仮名に統一するように修正いたします.

mmorise avatar Sep 23 '22 15:09 mmorise

ありがとうございます!

darashi avatar Sep 24 '22 09:09 darashi