#16 感情分析の結果

2022年8月26日 17:56

こんにちは、順番がめちゃくちゃになってしまいましたが研究における感情分析の結果について今回は説明しようと思います。
以前の手法の説明では、SVMを用いた分類のみを用いると書きましたが意図があってTextblobを用いた分析についても実施しました。その意図についても説明しながら、出てきた結果を分析したいと思います。
感情分析については以前のブログに書いているので参照お願いします。

https://note.com/makiwater/n/ncc971fc02a0e

Q1.TextblobとSVMの分類の違いとは?
Textblobは、テキストデータを処理するためのPythonライブラリです。一般的な自然言語処理(NLP)タスクのための一貫したAPIを提供します。Textblobはpythonの文字列と同じようなものです。
Textblobの特徴
a. トークン化
b. 名詞句抽出
c. 品詞タグ付け
d. センチメント分析
e. 言語の翻訳と検出
f. n-grams(単語分割の手法)
g. スペルチェック
h. WordNet(意味に基いて作成された巨大な概念辞書のこと)の統合

https://www.researchgate.net/profile/N-Janardhan/publication/333602124_A_Comprehensive_Study_on_Lexicon_Based_Approaches_for_Sentiment_Analysis/links/5d13452ca6fdcc2462a688ed/A-Comprehensive-Study-on-Lexicon-Based-Approaches-for-Sentiment-Analysis.pdf

polarityという数字で否定(-1<=p<0)、肯定(1>=p>0)を表します。これはSVMモデルでもできることです。もう一つ、subjectivity(0<=s<=1)という数字を算出し、これは文章全体の客観性の評価を行います。0に近い方が客観的という数字です。

以上の2点から、双方による分析を実施しました。
SVMのデータセットの用意や説明は以前のブログを参照ください。

これからは、この分類を見ての気づきとあれば新しい仮説について説明しようと思います。

①中立のツイートが半数近くを占めている。
どちらの分析の方法においても、neutralなツイートが約半数を占めています。
中立のツイートとして考えられる可能性は、「単語こそ入っているが、単純に賛成反対ほとんど関係ない内容についてツイートしている」のか、「賛成の考え方もわかるし、反対の考え方もわかる」のかという2つのパターンがあるのではないかと考えました。この仮説を検証するには、この中立なツイートについてどのような単語・トピックが登場するかということを調べると中立に分類されるツイートの傾向がわかるのではないかと考えました。

②SVMでのnegativeなツイートは、Textblobでのツイートの2倍近くある。
この原因としては、Textblobにはネットスラングや専門用語が辞書に登録されていないということがあります。再生水に関わる糞や尿の単語がそのままネガティブな意味を示しているのではないかと考えました。これを検証するためには、textblobでのネガティブなツイートに再生水に関わる糞や尿の単語が含まれていないかどうかを調べる必要があると思いました。

また、ネットスラングを収録した辞書型のVADERという感情解析ソフトがあるので、そちらとの差も解析対象になるのではないかと考えました。

③Textblobについて主観的なツイートの方が賛成意見の割合が多い
再生水については決めつけで否定的なツイートの方が多いと考えていましたので、これは意外な結果となりました。可能性としては、「皮肉を読み取れていない」などが考えられます。まだ仮説を組み立てきれないので、気がつき次第書いていきたいと思います。

読んでいただきありがとうございました。