【Python】 表記揺れを確認する
なんか機械学習とか高度なアルゴリズムとか、そんなものは使いません。
事前にCSVに良くある表記揺れを登録して、それが文中にどれだけあるかをカウントするだけのプログラムです。
背景
業種や業界によって、やたらと文書の表記揺れなどに厳しい会社があると思います。 毎回、人の手を借りて目視で確認するのは非効率だと思い、このような形でプログラムにしてみました。 このような形にしておけば、どのような表記揺れがあるかをCSVに知見として確実に積むことができます。失敗を確実に財産として蓄積していくことができるのです。また、表記揺れチェックが自動化されるので工数の削減にもつながります。
いちおう、表記揺れを確認するプログラムはウェブサイトにも存在しますが、機密性の高い文書などのチェックをするときに、なんとなく後ろめたい気持ちがあると思い、ローカルで実行するプログラムを作成しました。(とはいえ、その手のウェブサイトの処理はクライアント側で行なっているとは思いますが)
使い方の例
1. 事前にCSVにチェックしたい表記揺れを記述しておく
例として、次のようなCSVを作成して、任意のフォルダに保存します。
おれ、俺
わたし、私
国際連合、国連、UN
2. チェックしたいテキストファイルを用意
例として、次のようなテキストファイルを用意します。
おれは猫である。俺にはまだ名前がない。
3. コマンドラインから実行
最後に、コマンドラインで次のように実行します。
python ogcheck.py "チェック対象のパス" "表記揺れCSVのパス"
すると、下記のような結果が得られます。
{'おれ' : 1 , '俺' : 1}
テキストファイルには、「おれ」という単語が1つ、「俺」という単語が1つあり、つまり表記揺れがあることがわかります。
お気軽にフォローやコメントしてください。けっこう喜びます。