見出し画像

#9 機械学習と感情分析

こんばんは、最近甲子園をラジオやテレビでチェックしているのですがやはりトーナメントが進んでいくごとにレベルが上がっているという感想を持っています。
圧倒的優勝候補は大阪桐蔭高校ですが、ダークホース的存在として前回優勝の智弁和歌山高校を下した國學院栃木高校、強豪校に連勝している聖光学院高校(福島)に個人的に着目しています。
高校生No.1スラッガーと呼ばれる高松商業(香川)の浅野選手、近江(滋賀)4番でエースでキャプテンの絶対的主人公の山田選手からも目を離せません。

雑談はここまでにして今回は、
①機械学習とは?
②研究に対する疑問と、その解決手段としての感情分析の手法について
について説明します。

①機械学習とは?
(NRIのサイトがわかりやすいので引用します)
機械学習とは、データを分析する方法の1つで、データから、「機械」(コンピューター)が自動で「学習」し、データの背景にあるルールやパターンを発見する方法です。近年では、学習した成果に基づいて「予測・判断」することが重視されるようになっています。

統計学と機械学習は非常に微妙な関係にあります。しかし、主目的としては、統計学の場合は、データの背景にあるルールをより正しく説明できているかどうかを重視し、機械学習の場合は、より正しく予測できているかどうかを重視しているのです。
統計学はモデルが直感的に理解しやすいことが多く、機械学習は直感的に理解しにくい変数が考慮される代わりに正確性が増します。そのためビッグデータの処理に適していると言われています。

(出典終わり)
ここで、もう少し具体的な例を出して機械学習のメカニズムを説明しようと思います。自己紹介にも書いた通り、僕が好きな坂道系アイドルを例に説明しようと思います。
「とある人Aが好きな女優から、Aが好きそうと思われる乃木坂メンバーを提案する」プログラムを考えます。簡単のため、今回は顔写真のみに着目します。性格等別の要素も加えて分析することももちろん可能です。

このとき、プログラムにとある人Aが好きな女優の顔写真を学習させ、「Aが好きであろう顔」のモデルを構築させます。顔の形、目の形、口の形等々を分析して決めるのでしょうか。ここのインプットした好きな女優の顔写真を学習データ、「Aが好きであろう顔」のモデルを構築させる段階を事前学習といいます。

ここから、乃木坂メンバーの顔写真をテストデータとしてインプットし、どのメンバーが好きかをモデルに判断させるのが一連の流れです。Aが好きな女優のサンプル数が増えれば増えるほど、推測の結果が正確になっていきます。

この一連のデータを学習→判断の流れが、人間の行なっている思考行動に近いことからおそらく人工知能(AI)というものはこういうものなんだと納得しました。

②研究に対しての疑問と、その解決方法としての感情分析
再生水について以前の記事でトピックに分けましたが、そのトピックの中で賛成・反対に傾向があるか?という疑問を持ちました。反対の多いトピックについてより重点的に説明をするのが必要と考えられるからです。

そこで、文章を賛成・反対に分類するための手法として感情分析(Sentiment Analysis)という手法に着目しました。

感情分析はTweetなどの文章を読み取ってその文章が肯定的であるか否定的であるを判断する分析方法です。現在ではポジティブ・ネガティブだけではなく喜怒哀楽など複数の感情がどのくらい含まれているかという分析もできるようになっています。
この感情分析は、もともと各単語にあらかじめ感情の程度を示す数値が割り当てられた辞書を参照して判断するという方法が行われていました。
例えば「素晴らしい」と含まれていればプラス・「ひどい」「残念だ」という単語が含まれていればマイナスというような感じです。

2つ目の方法はBERTを用いて文章と肯定・否定を事前学習させ、機械学習によって判断する方法です。この文章は否定・この文章は肯定。。というのを学習してモデルを作り、判断させます。この判断させるときにSVM(Support Vector Machine)というアルゴリズムを今回は使用したのですが、その説明が次回行おうと思います。
単語の辞書を使う方法に対して、機械学習を使って判断する方法には3つのメリットがあります。

A.テキスト中に感情語が含まれていても,必ずしもそのテキストと感情カテゴリが一致するわけではない場合を判定できる。

例)「メディアが長いことワクチンへの不安を煽っていたの で,その影響もあるのだと思う」という文章について不安という単語が含まれているが実際に筆者が不安に感じているわけではないです。

B感情語は含まれていないが,文あるいはテキスト全体を見ると特定の感情カテゴ リに分類できる。例には不安に直接関係するような感情語は含まれていないが文全体を読めば 著者が不安を感じていることが分かります。

例)朝やってた家族全員陽性で夫入院、妻軽症で家で幼い子ども二人の面倒を見るって、ウチも同じようになる気が...(私だけワクチン打った)

C.テキスト中に含まれる単語が同じでも語順によってカテゴリが変わる。
例)この料理は価格が高くて美味しくない

この料理は美味しくて価格が高くない

は全く異なる文章ですが、単語だけを参照すると同じ意味になってしまいます。

次回は、SVMについての説明を行います。だいぶ手法の説明が多くなってしまったので、一回研究テーマの確認の回も入れたいと思います。
読んでいただきありがとうございました。

出典

https://www.jstage.jst.go.jp/article/kansei/19/4/19_163/_pdf/-char/ja