rohan4600
rohan4600 copied to clipboard
カタカナで表記されたルビについて
カタカナで表記されたルビが複数あることに気がつきました。どのように修正すべきかは方針にもよるかと思いますので、ひとまずご報告いたします。
以下のような Python スクリプトで確認しました。
import regex
with open("Rohan4600_transcript_utf8.txt") as f:
for line in f:
line = line.strip()
rubies = regex.findall(r"\(([^)]*)\)", line)
katakana_rubies = [r for r in rubies if regex.search(r"\p{Script=Katakana}", r)]
if katakana_rubies:
print(line)
print(katakana_rubies)
print()
実行結果は以下のとおりです。
ROHAN4600_0329:ヒェロニムはケチで、真夏(まなつ)でも十(ジュッ)キロ離(はな)れた百均(ひゃっきん)へ、チャリで走(はし)る。,ヒェロニムワケチデ、マナツデモジュッキロハナレタヒャッキンエ、チャリデハシル。
['ジュッ']
ROHAN4600_0961:スウェーデンで拉麺(ラーメン)を食(た)べるなら、ヒュースクヴァーナがお勧(すす)めだな。,スウェーデンデラーメンヲタベルナラ、ヒュースクヴァーナガオススメダナ。
['ラーメン']
ROHAN4600_1983:点字(テンジ)のことで略式(りゃくしき)起訴(きそ)されたが、友(とも)のエールで夜(よる)は眠(ねむ)れる。,テンジノコトデリャクシキキソサレタガ、トモノエールデヨルワネムレル。
['テンジ']
ROHAN4600_3414:貯蓄(ちょちく)したお金(かね)で、ヒューレットパッカードのGPU(ジーピーユー)を備(そな)えたPC(ピーシー)を買(か)います。,チョチクシタオカネデ、ヒューレットパッカードノジーピーユーヲソナエタピーシーヲカイマス。
['ジーピーユー', 'ピーシー']
これらの結果のうち、
- 0329 十(ジュッ)
- 1983 点字(テンジ)
は、いずれも平仮名で表記されるのが自然に思われます。
また、 4302 には「炒飯(ちゃーはん)」という表記があることから、
- 0961 拉麺(ラーメン)
も平仮名で表記されていたほうが一貫性がありそうです。
残る
- 3414 GPU(ジーピーユー)
- 3414 PC(ピーシー)
は英字に対するルビがここだけなので判断が難しいのですが、すべて平仮名で表記するという方針であれば、こちらも平仮名とするのがよいでしょうか。
ご確認、ご検討いただければ幸いです。
ありがとうございます.これから,全部平仮名に統一するように修正いたします.
ありがとうございます!