vimdoc-ja-working icon indicating copy to clipboard operation
vimdoc-ja-working copied to clipboard

カタカナ表記揺れ

Open msmhrt opened this issue 7 years ago • 8 comments

master ブランチで久しぶりに片仮名の表記揺れをチェックしてみましたのでご査収ください。

元データは https://gist.github.com/msmhrt/4284054 にあります。

ツールによる簡易チェックなので、「パースはパスの表記揺れ」のような誤検出も含まれていますがご容赦ください。

キャラクタ(21)、キャラクター(1) コンピュータ(19)、コンピューター(1) サーバー(163)、サーバ(1) ハンドラ(13)、ハンドラー(9) バー(11)、バッ(1) パス(208)、パース(32) パラメーター(19)、パラーメーター(1) ファイル・ウィンドウ(1)、ファイルウィンドウ(1) ファイル・バッファ(2)、ファイルバッファ(1) フィルタ(69)、フィルター(8) フィルタコマンド(29)、フィルターコマンド(2) フォーム(5)、ホーム(2) プラグインスクリプト(8)、プラグイン・スクリプト(1) ヘッダー(23)、ヘッダ(1) ポインタ(19)、ポインター(2) メンバ(13)、メンバー(4) モディファイア(4)、モディファイヤ(1) リカバリ(20)、リカバリー(8) リポジトリ(5)、レポジトリ(1) ローカル(269)、ロケール(91)

msmhrt avatar Jul 25 '17 00:07 msmhrt

興味本位なのですが、使ったツールをご紹介いただけませんか?

可能ならCIに組み込むなどできないかと思いついたので。

2017/07/25 午前9:15 "Masami HIRATA" [email protected]:

master ブランチで久しぶりに片仮名の表記揺れをチェックしてみましたのでご査収ください。

元データは https://gist.github.com/msmhrt/4284054 にあります。

ツールによる簡易チェックなので、「パースはパスの表記揺れ」のような誤検出も含まれていますがご容赦ください。

キャラクタ(21)、キャラクター(1) コンピュータ(19)、コンピューター(1) サーバー(163)、サーバ(1) ハンドラ(13)、ハンドラー(9) バー(11)、バッ(1) パス(208)、パース(32) パラメーター(19)、パラーメーター(1) ファイル・ウィンドウ(1)、ファイルウィンドウ(1) ファイル・バッファ(2)、ファイルバッファ(1) フィルタ(69)、フィルター(8) フィルタコマンド(29)、フィルターコマンド(2) フォーム(5)、ホーム(2) プラグインスクリプト(8)、プラグイン・スクリプト(1) ヘッダー(23)、ヘッダ(1) ポインタ(19)、ポインター(2) メンバ(13)、メンバー(4) モディファイア(4)、モディファイヤ(1) リカバリ(20)、リカバリー(8) リポジトリ(5)、レポジトリ(1) ローカル(269)、ロケール(91)

— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub https://github.com/vim-jp/vimdoc-ja-working/issues/162, or mute the thread https://github.com/notifications/unsubscribe-auth/AAclkBM7PDIbhjqCkRfhRtrntLIzvKs9ks5sRTOMgaJpZM4Oh6ds .

koron avatar Jul 25 '17 02:07 koron

返信が遅れてすみません。

紹介できるようなコードではないのでお見せしたくないのですが、https://github.com/msmhrt/kanayure で、 python3 kanayure.py --root-dir="../vimdoc-ja-working" --exclude-dirs=".git,en" --exclude-files="digraph*.*,dict.yml" --boundary="\s*\n(?::>)?\s*(?:\|\s*)*" と実行しています。

--boundary=... は vimdoc で二行に分かれたカタカナを検出するためのおまじないです。

やっていることを大雑把に説明すると「モディファイア」からモー?・?ディ?ー?・?(?ファ|ハ)ー?・?[イィ]ー?・?[ヤア]ー?・? のような正規表現を生成して、この正規表現にマッチした「モディファイヤ」を表記揺れと見なす感じです。

もしどうしても CI に組み込みたいのでしたら、一から書き直して一度検出した偽陽性を弾く仕組みを追加することを強くオススメします。

経験上、IT 文書のカタカナの表記揺れは、長音(ー)と中黒(・)の有無によるものが半分以上を占めていますので、そこをチェックするだけでも結構改善するのではないかと思われます。

msmhrt avatar Jul 29 '17 00:07 msmhrt

コマンドモディファイヤ (4) {motion.jax (3), windows.jax (1)} もお願いします。

長音については vimdoc-ja の issue で取り上げられてはいたものの、結論が出ずにうやむやになっていますね。こういう部分では、声の大きい Vimmer が必要かもです。

uakms avatar Jul 29 '17 13:07 uakms

master ブランチで久しぶりに片仮名の表記揺れをチェックしてみましたのでご査収ください。

・元データは https://gist.github.com/msmhrt/fb5016cf72a02f5b6d9397a4698dc2ef にあり、カタカナ語を最初に検出した場所のリストもあります。

・ツールによる簡易チェックなので、「パースはパスの表記揺れ」のような誤検出も含まれていますがご容赦ください。

・複数語の分割には対応していないので、コマンドモディファイヤとモディファイアの表記揺れは検出できません。

・今回はチャネルとチャンネルのように、ナニヌネノが直後に続く「ン」の有無による表記揺れにも対応してみましたが、チャンネルとチャネル以外はそのような表記揺れはなかったらしく、チャンネルは既にチャネルに統一されているので検出されませんでした。

エミュレータ(13)、エミュレーター(2) キャラクタ(21)、キャラクター(1) コンピュータ(19)、コンピューター(1) サーバー(166)、サーバ(1) ハンドラ(13)、ハンドラー(9) バー(11)、バッ(1) パス(215)、パース(33) パラメーター(19)、パラーメーター(1)、パラメータ(1) ファイル・ウィンドウ(1)、ファイルウィンドウ(1) ファイル・バッファ(2)、ファイルバッファ(1) フィルタ(69)、フィルター(8) フィルタコマンド(29)、フィルターコマンド(2) フォルダ(5)、フォルダー(1) フォントファミリ(5)、フォントファミリー(1) フォーム(5)、ホーム(2) プラグインスクリプト(8)、プラグイン・スクリプト(1) ヘッダー(23)、ヘッダ(1) ポインタ(19)、ポインター(2) メンバ(13)、メンバー(4) モディファイア(4)、モディファイヤ(1) リカバリ(20)、リカバリー(8) リポジトリ(5)、レポジトリ(1) ローカル(272)、ロケール(91)

msmhrt avatar Jun 24 '18 16:06 msmhrt

ありがとうございます。ローカルも気を付けた方が良さそう(ローカルディレクトリなど)ですね。

mattn avatar Jun 25 '18 00:06 mattn

チャンネルは既にチャネルに統一されている

現時点では「チャンネル」に統一されています。 #276 (本日夕方以降に「チャネル」に統一予定)

h-east avatar Jun 25 '18 01:06 h-east

かつて統一したことのあるものがまた…… 香り屋の KoRoN さんに無償で nvcheck を作成してもらう前だったかしら? dict.yml に記述漏れだったのかも。

uakms avatar Jun 25 '18 12:06 uakms

現時点では「チャンネル」に統一されています。 #276 (本日夕方以降に「チャネル」に統一予定)

おっと失礼しました。

かつて統一したことのあるものがまた……

dict.yml はチェック対象から除外しましたが、もし他に除外すべきファイルから誤検出しているようでしたらお知らせください。

後は、2 行にまたがっているカタカナ語の扱いが nvcheck と異なるかもしれないくらいでしょうか。

こちらは前処理で \s*\n(?::>)?\s*(?:|\s*)* にマッチした文字列を取り除くようにしていますので、

:> ことに関してです。例えばいままで見ていた(編集していた)内容がスクリ :> ーンに残っていますよね。そして前に行った ls などのコマンドの出力が

から「スクリーン」を抽出できますが、インデントは考慮していないので、

クレジットカード    クレジットカードでの送金には PayPal を使ってください。詳しいこ

から「クレジットカードクレジットカード」を誤抽出しています。

msmhrt avatar Jun 25 '18 22:06 msmhrt