マガジンのカバー画像

テキスト分析の大通り

22
テキスト分析においてよく実施される手順=「ネオンで輝く大通り」を歩きます。文章データの形態素解析から単語の整理、BOWやTF-IDFの作成、ナイーブベイズテキスト分類、コサイン類…
運営しているクリエイター

#analytics

テキスト分析の大通り#21: Janomeでの形態素解析

補記その2。Janomeでの処理。ユーザー辞書の利用方法がカジュアルで良いなと思う反面、Sudachi…

yssymmt
1年前
1

テキスト分析の大通り#20: 形態素解析をループで実行と

補記その1。形態素解析を行う際、ときに処理対象となる文章の件数が多くなり、ローカルのPytho…

yssymmt
1年前
1

テキスト分析の大通り#01: データのロード

この記事ではテキスト分析でよく実施される手順、つまり「大通り」を練り歩いてみようと思いま…

yssymmt
1年前
3

テキスト分析の大通り#02: 文字の矯正

今回は、前回に引き続き、文字の矯正を行っていきます。同一の単語意に対して複数の表現が存在…

yssymmt
1年前
2

テキスト分析の大通り#03: 形態素解析(Mecab編)

前回までで文字の矯正が済んだとして、今回は文章の形態素解析を行っていきます。要は文章を単…

yssymmt
1年前
2

テキスト分析の大通り#04: 形態素解析(Sudachi編)

前回Mecabを用いた形態素解析を行いましたが、今回は同じことをSudachiというライブラリで行っ…

yssymmt
1年前
2

テキスト分析の大通り#05: 形態素解析結果の縦持ち(Mecab編)

前回まででMecab、Sudachiを利用した形態素解析を実施しました。続いてこれを単語ごとに縦持ちすることを考えたいと思います。文書のデータを単語に分解し、これをカテゴリカルなデータとして扱うことで集計をしたり、他のデータと結合することが容易になります。MecabとSudachiで形態素解析の区切り方が異なるため、それぞれに対して縦持ちを検討しますが、今回はMecabの方を行ってみます。 Mecabの形態素解析結果 前々回、Mecabで形態素解析した結果のデータをTer

テキスト分析の大通り#06: 形態素解析結果の縦持ち(Sudachi編)

前回Mecabの形態素解析処理結果に対して縦持ち処理を行いましたが、今回は同じことをSudachiで…

yssymmt
1年前
2

テキスト分析の大通り#07: 品詞と単語の確認

今回は縦持ちした形態素解析の結果を見ていきたいと思います。1つは品詞の確認、そして単語の…

yssymmt
1年前
2

テキスト分析の大通り#08: 係り受けとngram

縦持ちした形態素解析の結果を見ていく方法として、係り受け、もしくはngramという方法を見て…

yssymmt
1年前
1

テキスト分析の大通り#09: BOWとTF-IDFの計算、SQL編

前回までで文章を単語に分解し、その結果をもとに単語の矯正を行ってきました。今回以降ではこ…

yssymmt
1年前
2

テキスト分析の大通り#10: ナイーブベイズテキスト分類、SQL編

今回は、前回作成したBOW, TF-IDFの指標化された文書データを用い、ナイーブベイズのテキスト…

yssymmt
1年前
2

テキスト分析の大通り#11: ナイーブベイズテキスト分類用の横持ち連結

前回SQLでのナイーブベイズ利用について整理しました。また次回以降はPython Scikit-learnを使…

yssymmt
1年前
2

テキスト分析の大通り#12: ナイーブベイズテキスト分類、Scikit-learn、BOW利用編

今回はScikit-learnでのナイーブベイズテキスト分類を行っていきます。今回分でBOWを入力とした手順、次回でTF-IDFを入力とした手順を見ていきます。まずは処理スクリプトを以下に。 ライブラリとしてはナイーブベイズの前に、CountVectorizerを利用し、BOWの配列を作成し、それをナイーブベイズの入力にします。横持ち連結の文章に近いデータをCountVectorizerに突っ込み、出来上がった配列をナイーブベイズに、という手順です。 最初にorder b