マガジンのカバー画像

テキスト分析の大通り

22
テキスト分析においてよく実施される手順=「ネオンで輝く大通り」を歩きます。文章データの形態素解析から単語の整理、BOWやTF-IDFの作成、ナイーブベイズテキスト分類、コサイン類…
運営しているクリエイター

2022年10月の記事一覧

テキスト分析の大通り#01: データのロード

この記事ではテキスト分析でよく実施される手順、つまり「大通り」を練り歩いてみようと思いま…

yssymmt
2年前
3

テキスト分析の大通り#02: 文字の矯正

今回は、前回に引き続き、文字の矯正を行っていきます。同一の単語意に対して複数の表現が存在…

yssymmt
2年前
2

テキスト分析の大通り#03: 形態素解析(Mecab編)

前回までで文字の矯正が済んだとして、今回は文章の形態素解析を行っていきます。要は文章を単…

yssymmt
2年前
2

テキスト分析の大通り#04: 形態素解析(Sudachi編)

前回Mecabを用いた形態素解析を行いましたが、今回は同じことをSudachiというライブラリで行っ…

yssymmt
2年前
2

テキスト分析の大通り#05: 形態素解析結果の縦持ち(Mecab編)

前回まででMecab、Sudachiを利用した形態素解析を実施しました。続いてこれを単語ごとに縦持ち…

yssymmt
2年前
1

テキスト分析の大通り#06: 形態素解析結果の縦持ち(Sudachi編)

前回Mecabの形態素解析処理結果に対して縦持ち処理を行いましたが、今回は同じことをSudachiで…

yssymmt
2年前
2

テキスト分析の大通り#07: 品詞と単語の確認

今回は縦持ちした形態素解析の結果を見ていきたいと思います。1つは品詞の確認、そして単語の確認です。ここでの目的は不要な単語を整理統合することにあります。テキスト分析をなぜやるかと言えば、文章を一つ一つ読むことなく、文意を理解したり、判別したり、他のデータと突き合わせがしやすいようにすることです。単語に分解することによってこれが容易になりますが、一方で無駄な単語も多く混じります。単語そのものの出現頻度と、品詞から必要な単語に絞り込むことが必要です。 品詞の確認 前回まででM

テキスト分析の大通り#08: 係り受けとngram

縦持ちした形態素解析の結果を見ていく方法として、係り受け、もしくはngramという方法を見て…

yssymmt
2年前
1

テキスト分析の大通り#09: BOWとTF-IDFの計算、SQL編

前回までで文章を単語に分解し、その結果をもとに単語の矯正を行ってきました。今回以降ではこ…

yssymmt
2年前
2

テキスト分析の大通り#10: ナイーブベイズテキスト分類、SQL編

今回は、前回作成したBOW, TF-IDFの指標化された文書データを用い、ナイーブベイズのテキスト…

yssymmt
2年前
2

テキスト分析の大通り#11: ナイーブベイズテキスト分類用の横持ち連結

前回SQLでのナイーブベイズ利用について整理しました。また次回以降はPython Scikit-learnを使…

yssymmt
2年前
2

テキスト分析の大通り#12: ナイーブベイズテキスト分類、Scikit-learn、BOW利用編

今回はScikit-learnでのナイーブベイズテキスト分類を行っていきます。今回分でBOWを入力とし…

yssymmt
2年前
1

テキスト分析の大通り#13: ナイーブベイズテキスト分類、Scikit-learn、TF-IDF利用編

今回もScikit-learnでのナイーブベイズテキスト分類を行っていきます。前回はBOWを入力とした…

yssymmt
2年前
2

テキスト分析の大通り#14: コサイン類似度

前回まででナイーブベイズテキスト分類の手順について整理しましたが、今回は同じTF-IDFを利用した、文書間の類似度について整理します。コサイン類似度と呼ばれる文書と文書の類似度を計算する方法も、テキスト分析の代表的な分析の1つです。計算の詳細は割愛しますが、コサイン類似度は2つの文書間における類似度が高ければ1に近い値、類似度が低ければ0に近い値を取る指標です。まったく単語を共有しなければ0、まったく同じ単語で構成される同じ文書であれば1となります。ただし単語の出現順序は考慮