見出し画像

テキスト分析の大通り#02: 文字の矯正

今回は、前回に引き続き、文字の矯正を行っていきます。同一の単語意に対して複数の表現が存在すると、のちのち集約する際にばらけてしまい、その単語の出現確率を正確に理解できません。今回はneologdnというライブラリを利用した矯正と、英字の大文字小文字の統一を行います。


文字の矯正

処理一式は以下のノートブックに記載されています。追って解説を追加します。

前回矯正処理を進めた途中のデータをデータベースからロードします。そしてこれをneologdnというライブラリに食わせます。前回はmojimojiで全角半角の統一を行いましたが、neologdnでは、反復する文字列の折りたたみや、記号の統一などを行ってくれます。今回のデータに対してはあまり矯正要素がなかった様子ですが、それでもdocidの19番でトゥーーースにおける伸ばし文字がトゥースにたたまれています。

続いて大文字小文字の統一です。こちらはPythonの関数を使って矯正します。完了したらデータベースにここまでの結果を置いておきましょう。今回はここまでです。

(TeradataやPython、およびPythonライブラリのインストールや環境構築、辞書登録、参考にしたページ等は以下にまとめています)

///

#analytics #pyhon #neologdn #text #nlp #データ #分析 #teradata #sql

この記事が気に入ったらサポートをしてみませんか?