見出し画像

【データ分析】今日も今日とてテキストマイニング(形態素解析?)

やっと天気が良くなった.大岡川沿いを歩いてみると,先週まで出ていた出店がもう片付けられていた.週末の絶好のタイミングでの雨だったので,残念だったろうなと思う.
雨に濡れて地面にある桜は少し汚く感じる.
(なんて自分勝手なんだろうか)

まだまだ,こちらの続き
【データ分析】スプレッドシートからYahoo API(形態素解析)を使う
【データ分析】Yahoo API(形態素解析)でaikoとBUMP OF CHICKENを比較してみる

単語同士の関連を見てみる

昨日までで,データの収集,単語への分解までができるようになった.
今回は2個の連続する単語(2-gram)に分けて集計し,単語の関連を見てみようと思う.最終的に分類するモデルを作成する予定だが,その際にどの単語を使用するかを判断するためである.ちなみに品詞を形容詞,形容動詞,名詞,動詞に絞った.
※なんとなく感覚でやっており,調べながらやっているわけではないので変なことをしているかも.
実際の集計結果は以下になる(抜粋).

隣接する単語の出現回数の表

上記集計はaikoとBUMP OF CHICKENを合算して集計をしている.
"あたし"と"あなた"という単語が隣り合って出現するのは116回である(順不同)."あたし"という単語は歌詞全体で1,116回出現しており,そのうちの116回(14.72%)は"あなた"という単語と一緒にでているので,かなり高い割で一緒に出現しているのではないかと思う.例えば実際に分類のロジックを作成するときは,"あたし"か"あなた"のどちらかの単語を使用すればよいのかな.(実際にはもっと精査が必要なのかもしれないが)

さて,問題.
"目"という単語と出現割合が高い単語は次のうちどれか.
1.閉じる
2.見る
3.覚める

正解は・・・

閉じる(11.66%),見る(8.07%),覚める(4.93%)で"閉じる"が1番.
(あくまでも僕の集計では)
人間の行動の流れとしては,覚める → 見る → 閉じる,の流れかなと思うが終わりの動作が1番注目されるのは少し興味深い気も.(色々な仮説・想像ができるかも)

少し考えるべき点

GAS(Google Apps Script)でのデータ集計は少し慣れてきた感じがする.
一方で反省点もチラホラ.
・そもそも言葉の定義を良く理解していない(形態素解析,テキストマイニング,n-gramなど)
・最終的には曲単位での分類を考えているので,曲単位での単語の同時出現を検討しなくてはいけなかったのかもしれない.
・データを判別するのに目視しているが,ある程度可視化を考慮したデータのつくりにしたほうが良いかもしれない.
・全体的にデータの精査が必要なのかなと

終わりに

明日辺りからナイーブベイズ法を使用して分類を考えていたが,もう少し下準備が必要かなと感じている.
(ロジスティック回帰との比較もしたいと思っている)

桜並木の出店のように,絶頂の部分で尻すぼみしなければ良いが.

今まであたしがしてきたこと 間違いじゃないとは言いきれない 
ケドあなたと逢えたことで 全て報われた気がするよ 
降ってくる雨が迷惑で しかめっ面したあたしに 
雨上がりの虹を教えてくれたありがとう 
「春が来るとこの川辺は桜がめいっぱい咲き乱れるんだ」
aiko『桜の時』

いつか報われる日を信じて.

PCとスマホ,wifiだけを持って全国をのんびり旅したい.