マガジンのカバー画像

テキスト分析の大通り

22
テキスト分析においてよく実施される手順=「ネオンで輝く大通り」を歩きます。文章データの形態素解析から単語の整理、BOWやTF-IDFの作成、ナイーブベイズテキスト分類、コサイン類…
運営しているクリエイター

#Pyhon

テキスト分析の大通り#21: Janomeでの形態素解析

補記その2。Janomeでの処理。ユーザー辞書の利用方法がカジュアルで良いなと思う反面、Sudachi…

yssymmt
1年前
1

テキスト分析の大通り#20: 形態素解析をループで実行と

補記その1。形態素解析を行う際、ときに処理対象となる文章の件数が多くなり、ローカルのPytho…

yssymmt
1年前
1

テキスト分析の大通り#01: データのロード

この記事ではテキスト分析でよく実施される手順、つまり「大通り」を練り歩いてみようと思いま…

yssymmt
1年前
3

テキスト分析の大通り#02: 文字の矯正

今回は、前回に引き続き、文字の矯正を行っていきます。同一の単語意に対して複数の表現が存在…

yssymmt
1年前
2

テキスト分析の大通り#03: 形態素解析(Mecab編)

前回までで文字の矯正が済んだとして、今回は文章の形態素解析を行っていきます。要は文章を単…

yssymmt
1年前
2

テキスト分析の大通り#04: 形態素解析(Sudachi編)

前回Mecabを用いた形態素解析を行いましたが、今回は同じことをSudachiというライブラリで行っ…

yssymmt
1年前
2

テキスト分析の大通り#17: 環境構築と辞書登録

以下に環境構築関連で行ったことを記します。OSはWindows10です。ちなみに以下に記載されているneologd辞書、Mecabのユーザー辞書、Sudachiのユーザー辞書登録はPythonでのMecab、またはSudachiのインストール後に実施します。 Teradataの環境以下を参照ください Anacondaのインストール Pythonの環境としてAnacondaを利用しました。PandasやSklearnなどはすでに入っているので楽できます。 最初に以下からイ