マガジンのカバー画像

テキスト分析の大通り

22
テキスト分析においてよく実施される手順=「ネオンで輝く大通り」を歩きます。文章データの形態素解析から単語の整理、BOWやTF-IDFの作成、ナイーブベイズテキスト分類、コサイン類…
運営しているクリエイター

記事一覧

テキスト分析の大通り#22: TeradataでのUnicode正規化、NFKC

補足その3。あるって知らなかったよ。 テキスト分析において、文字の全角半角の統一をしていく…

yssymmt
1年前

テキスト分析の大通り#21: Janomeでの形態素解析

補記その2。Janomeでの処理。ユーザー辞書の利用方法がカジュアルで良いなと思う反面、Sudachi…

yssymmt
1年前
1

テキスト分析の大通り#20: 形態素解析をループで実行と

補記その1。形態素解析を行う際、ときに処理対象となる文章の件数が多くなり、ローカルのPytho…

yssymmt
1年前
1

テキスト分析の大通り#01: データのロード

この記事ではテキスト分析でよく実施される手順、つまり「大通り」を練り歩いてみようと思いま…

yssymmt
2年前
3

テキスト分析の大通り#02: 文字の矯正

今回は、前回に引き続き、文字の矯正を行っていきます。同一の単語意に対して複数の表現が存在…

yssymmt
2年前
2

テキスト分析の大通り#03: 形態素解析(Mecab編)

前回までで文字の矯正が済んだとして、今回は文章の形態素解析を行っていきます。要は文章を単…

yssymmt
2年前
2

テキスト分析の大通り#04: 形態素解析(Sudachi編)

前回Mecabを用いた形態素解析を行いましたが、今回は同じことをSudachiというライブラリで行っていきます。どちらが良いとかはないのですが、どんな違いがでるのかという興味本位で両方やってます。ちなみに別のテキスト分析の際には、「二〇〇九年」といった漢数字の文字列があり、Mecabはそのまま切り刻まれていましたが、Sudachiは2009年という英数字に矯正することができました。形態素解析器によってそれぞれ癖があります。 文字の矯正 処理一式は今まで同様以下のノートブッ

テキスト分析の大通り#05: 形態素解析結果の縦持ち(Mecab編)

前回まででMecab、Sudachiを利用した形態素解析を実施しました。続いてこれを単語ごとに縦持ち…

yssymmt
2年前
1

テキスト分析の大通り#06: 形態素解析結果の縦持ち(Sudachi編)

前回Mecabの形態素解析処理結果に対して縦持ち処理を行いましたが、今回は同じことをSudachiで…

yssymmt
2年前
2

テキスト分析の大通り#07: 品詞と単語の確認

今回は縦持ちした形態素解析の結果を見ていきたいと思います。1つは品詞の確認、そして単語の…

yssymmt
2年前
2

テキスト分析の大通り#08: 係り受けとngram

縦持ちした形態素解析の結果を見ていく方法として、係り受け、もしくはngramという方法を見て…

yssymmt
2年前
1

テキスト分析の大通り#09: BOWとTF-IDFの計算、SQL編

前回までで文章を単語に分解し、その結果をもとに単語の矯正を行ってきました。今回以降ではこ…

yssymmt
2年前
2

テキスト分析の大通り#10: ナイーブベイズテキスト分類、SQL編

今回は、前回作成したBOW, TF-IDFの指標化された文書データを用い、ナイーブベイズのテキスト…

yssymmt
2年前
2

テキスト分析の大通り#11: ナイーブベイズテキスト分類用の横持ち連結

前回SQLでのナイーブベイズ利用について整理しました。また次回以降はPython Scikit-learnを使って同じことをしようと思いますが、その前にScikit-Learn用のデータを今回は作ります。入力として一つの文書が半角スペースで区切られた1列に入れる必要があります。英語の半角スペース区切りの文書なら、ワンチャンそのまま利用できるデータの形式です。一方でSQLでは単語ごとに分解し、縦持ちしており、その中で不要語を削除したり、矯正したりしてきました。これはこれで扱いや