vimdoc-ja-working
vimdoc-ja-working copied to clipboard
カタカナ表記揺れ
master ブランチで久しぶりに片仮名の表記揺れをチェックしてみましたのでご査収ください。
元データは https://gist.github.com/msmhrt/4284054 にあります。
ツールによる簡易チェックなので、「パースはパスの表記揺れ」のような誤検出も含まれていますがご容赦ください。
キャラクタ(21)、キャラクター(1) コンピュータ(19)、コンピューター(1) サーバー(163)、サーバ(1) ハンドラ(13)、ハンドラー(9) バー(11)、バッ(1) パス(208)、パース(32) パラメーター(19)、パラーメーター(1) ファイル・ウィンドウ(1)、ファイルウィンドウ(1) ファイル・バッファ(2)、ファイルバッファ(1) フィルタ(69)、フィルター(8) フィルタコマンド(29)、フィルターコマンド(2) フォーム(5)、ホーム(2) プラグインスクリプト(8)、プラグイン・スクリプト(1) ヘッダー(23)、ヘッダ(1) ポインタ(19)、ポインター(2) メンバ(13)、メンバー(4) モディファイア(4)、モディファイヤ(1) リカバリ(20)、リカバリー(8) リポジトリ(5)、レポジトリ(1) ローカル(269)、ロケール(91)
興味本位なのですが、使ったツールをご紹介いただけませんか?
可能ならCIに組み込むなどできないかと思いついたので。
2017/07/25 午前9:15 "Masami HIRATA" [email protected]:
master ブランチで久しぶりに片仮名の表記揺れをチェックしてみましたのでご査収ください。
元データは https://gist.github.com/msmhrt/4284054 にあります。
ツールによる簡易チェックなので、「パースはパスの表記揺れ」のような誤検出も含まれていますがご容赦ください。
キャラクタ(21)、キャラクター(1) コンピュータ(19)、コンピューター(1) サーバー(163)、サーバ(1) ハンドラ(13)、ハンドラー(9) バー(11)、バッ(1) パス(208)、パース(32) パラメーター(19)、パラーメーター(1) ファイル・ウィンドウ(1)、ファイルウィンドウ(1) ファイル・バッファ(2)、ファイルバッファ(1) フィルタ(69)、フィルター(8) フィルタコマンド(29)、フィルターコマンド(2) フォーム(5)、ホーム(2) プラグインスクリプト(8)、プラグイン・スクリプト(1) ヘッダー(23)、ヘッダ(1) ポインタ(19)、ポインター(2) メンバ(13)、メンバー(4) モディファイア(4)、モディファイヤ(1) リカバリ(20)、リカバリー(8) リポジトリ(5)、レポジトリ(1) ローカル(269)、ロケール(91)
— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub https://github.com/vim-jp/vimdoc-ja-working/issues/162, or mute the thread https://github.com/notifications/unsubscribe-auth/AAclkBM7PDIbhjqCkRfhRtrntLIzvKs9ks5sRTOMgaJpZM4Oh6ds .
返信が遅れてすみません。
紹介できるようなコードではないのでお見せしたくないのですが、https://github.com/msmhrt/kanayure で、
python3 kanayure.py --root-dir="../vimdoc-ja-working" --exclude-dirs=".git,en" --exclude-files="digraph*.*,dict.yml" --boundary="\s*\n(?::>)?\s*(?:\|\s*)*"
と実行しています。
--boundary=... は vimdoc で二行に分かれたカタカナを検出するためのおまじないです。
やっていることを大雑把に説明すると「モディファイア」からモー?・?ディ?ー?・?(?ファ|ハ)ー?・?[イィ]ー?・?[ヤア]ー?・?
のような正規表現を生成して、この正規表現にマッチした「モディファイヤ」を表記揺れと見なす感じです。
もしどうしても CI に組み込みたいのでしたら、一から書き直して一度検出した偽陽性を弾く仕組みを追加することを強くオススメします。
経験上、IT 文書のカタカナの表記揺れは、長音(ー)と中黒(・)の有無によるものが半分以上を占めていますので、そこをチェックするだけでも結構改善するのではないかと思われます。
コマンドモディファイヤ (4) {motion.jax (3), windows.jax (1)} もお願いします。
長音については vimdoc-ja の issue で取り上げられてはいたものの、結論が出ずにうやむやになっていますね。こういう部分では、声の大きい Vimmer が必要かもです。
master ブランチで久しぶりに片仮名の表記揺れをチェックしてみましたのでご査収ください。
・元データは https://gist.github.com/msmhrt/fb5016cf72a02f5b6d9397a4698dc2ef にあり、カタカナ語を最初に検出した場所のリストもあります。
・ツールによる簡易チェックなので、「パースはパスの表記揺れ」のような誤検出も含まれていますがご容赦ください。
・複数語の分割には対応していないので、コマンドモディファイヤとモディファイアの表記揺れは検出できません。
・今回はチャネルとチャンネルのように、ナニヌネノが直後に続く「ン」の有無による表記揺れにも対応してみましたが、チャンネルとチャネル以外はそのような表記揺れはなかったらしく、チャンネルは既にチャネルに統一されているので検出されませんでした。
エミュレータ(13)、エミュレーター(2) キャラクタ(21)、キャラクター(1) コンピュータ(19)、コンピューター(1) サーバー(166)、サーバ(1) ハンドラ(13)、ハンドラー(9) バー(11)、バッ(1) パス(215)、パース(33) パラメーター(19)、パラーメーター(1)、パラメータ(1) ファイル・ウィンドウ(1)、ファイルウィンドウ(1) ファイル・バッファ(2)、ファイルバッファ(1) フィルタ(69)、フィルター(8) フィルタコマンド(29)、フィルターコマンド(2) フォルダ(5)、フォルダー(1) フォントファミリ(5)、フォントファミリー(1) フォーム(5)、ホーム(2) プラグインスクリプト(8)、プラグイン・スクリプト(1) ヘッダー(23)、ヘッダ(1) ポインタ(19)、ポインター(2) メンバ(13)、メンバー(4) モディファイア(4)、モディファイヤ(1) リカバリ(20)、リカバリー(8) リポジトリ(5)、レポジトリ(1) ローカル(272)、ロケール(91)
ありがとうございます。ローカルも気を付けた方が良さそう(ローカルディレクトリなど)ですね。
チャンネルは既にチャネルに統一されている
現時点では「チャンネル」に統一されています。 #276 (本日夕方以降に「チャネル」に統一予定)
かつて統一したことのあるものがまた…… 香り屋の KoRoN さんに無償で nvcheck を作成してもらう前だったかしら? dict.yml に記述漏れだったのかも。
現時点では「チャンネル」に統一されています。 #276 (本日夕方以降に「チャネル」に統一予定)
おっと失礼しました。
かつて統一したことのあるものがまた……
dict.yml はチェック対象から除外しましたが、もし他に除外すべきファイルから誤検出しているようでしたらお知らせください。
後は、2 行にまたがっているカタカナ語の扱いが nvcheck と異なるかもしれないくらいでしょうか。
こちらは前処理で \s*\n(?::>)?\s*(?:|\s*)* にマッチした文字列を取り除くようにしていますので、
:> ことに関してです。例えばいままで見ていた(編集していた)内容がスクリ :> ーンに残っていますよね。そして前に行った ls などのコマンドの出力が
から「スクリーン」を抽出できますが、インデントは考慮していないので、
クレジットカード クレジットカードでの送金には PayPal を使ってください。詳しいこ
から「クレジットカードクレジットカード」を誤抽出しています。