ひらがなの「へ」とカタカナの「ヘ」を区別する
こんなツイートが話題になっていました。
「どうやったら、このように入力できるんだろう?嫌がらせ!?」と思いつつも、信じられないような文字原稿が日々届きます。
音引きと罫線ならフォントを変更することで見分けがつくことがありますが、ひらがなの「へ」とカタカナの「ヘ」はムリ。そこで利用したいのが正規表現です。
正規表現
まず、正規表現でカタカナは次のように記述します。
[\u30A0-\u30FF]+
そこで、「カタカナ、ひらがなのへ、カタカナ」は次のように記述できます。
[\u30A0-\u30FF]+へ[\u30A0-\u30FF]+
ただし、これだと「へブン」のように、ひらがなのへではじまる場合に対応できないため、「+」(1つまたはそれ以上)を「*」(0または複数)に変更します。
[\u30A0-\u30FF]*へ[\u30A0-\u30FF]*
さらにキャプチャ(=取り出し)できるように「へ」を()で囲んで完成です。
[\u30A0-\u30FF](へ)[\u30A0-\u30FF]
Rubularでのスクリーンショット
次のURLから、編集画面が開きます。
その他の誤りやすい文字
「し」と「レ」のほか、誤りやすいカタカナと漢字もありますよね。左がカタカナ、右が漢字です。
こちらの記事が参考になりました。
次のようにしてみました。「ケ・ヶ」も入れておいた方がいいかも。
[\u30A0-\u30FF]([へし力夕口二千七]+)[\u30A0-\u30FF]
Rubularでのスクリーンショット
音引き
ほぼ毎日といっていいくらい目にするのが音引きの誤り。ハイフンだったり、罫線になっていることがよくあります。ツイートでも多く見かけます。
カタカナに続く「-‐‑–—―−ー─」を次のように指定します。
(?<=([ァ-ヶ]))[-‐‑–—―−ー─]
こちらの記事にて取り上げています。
ひらがなも対象に
口語などで、ひらがなの中で音引きを使うこともあるので、ひらがなも対象にした方がいいかも。
と思っていたら「リ、り」などもありますね…
ひらがなは「\u3040-\u309F」ですので、まとめると次のようになります。
[\u30A0-\u30FF]([\u3040-\u309F力夕口二千七]+)[\u30A0-\u30FF]
正規表現?
「正規表現と言われても…」という方向けの記事を書いています。
フォントを変更して見分ける
「SIer」(Iは大文字のi)という職種があるのですが、プロフィールにて「Sler」(lは小文字のエル)と書かれていたことがありました。
見分けやすいフォントに変更することで確認しました。
強制的に大文字/小文字に変更してしまうのもアリかも。
誤字が多い方へ
人間誰しも誤字はありますが、ビジネスでは「てへ」で終わらない場面もあります。「誤字が多い」と悩む前に、開き直る前に、入力方法そのものを見直した方がよさそうです。
ちなみに、私のオススメは「ATOKを用いて、なるべく文章で入力する」です。文節(=細かく切って)入力している限り、相当な眼力がない限り、状況は変わりません。
セルフ校正チェックシート
ひとくちに「校正」といっても、切り口やレベルがあり、チームや案件によっても“落としどころ”は異なります。
そこで、優先度を付けて取り組むための校正の視点についてまとめはじめました。別の機会に発表します。
ここから先は
DTP Transit 定期購読マガジン
マガジン限定記事やサンプルファイルをダウンロードできます。
定期マガジンを購読されるとサンプルファイルをダウンロードいただけます。 https://note.com/dtp_tranist/m/mebd7eab21ea5