結婚と離婚、意気消沈対幸せ、天国対地獄@データサイエンス講座

私が講師をしている、とあるデータサイエンス講座の出来事。

Twitterなどの呟き、コメントが、負の感情か、はたまた、正の感情か分析することを、センチメントアナルシス(感情分析)という。

感情分析の前工程で、定番の、エンベディングという技術がある。自然言語処理の一種であり、テキストを構成する単語をベクトル空間に数値化する技術である。
そのなかで、Word2Vecという、単語の分散表現を目指した手法がある。更にその中で、
Skip-Gramsという、文章の中で似たような文脈で使われる単語同士を近づけていく(ベクトル空間が近似していく)アルゴリズムがある。
Skip-Gramsに、英語のウィキペディアの全文書を、高スペックPC(GPU搭載PC)で、4時間ほど学習させる。普通のPCだと、2〜3日はかかる処理量である。学習済みの分散表現を獲得した単語のベクトル空間を、AIのライブラリー、TensorFlowの可視化ツール、TenorBoardで可視化させて、いろいろ遊んだことがある。

Pythonを使ったデータサイエンスの分析演習の講座の講師をしているとき、息抜きの雑談と、AIの勉強も兼ねて、受講生にも見せたことがある。

自然言語処理について、と、Skip-Gramsのアルゴリズムの概要をさくっと説明する。

「任意の単語を、縦軸、横軸にマッピングして、その単語からの距離を可視化することができます。
横軸の左をdepression(意気消沈)右をhappy(幸せ)の単語をマッピングさせてみます。意気消沈より幸せに近い単語なら、右にマッピングされたす。そして、縦軸の上に、heaven(天国)、下にhell(地獄)をマッピングさせてみます」

ふむふむ、と、プロジェクターのスクリーンを食い入るように見る受講生。

「えー、実は私、バツイチなんですが、意気消沈対幸せ、天国対地獄のベクトル空間に、離婚、divorce、という、単語をマッピングさせると、どうなると思いますか?」

あえて魔をとり、様子をうかがう。何人か腕を組んだり、しかめっ面をしたりしている。

右側の真ん中付近、微小だが、下より上に現れたdivorce。

「地獄よりは、まだ、天国で、ハッピーなことなんですよね」

反応に困る受講生が、ちらほら。結婚指輪をしている人もちらほら。既婚者も、そこそこ混じっている。

「ここで、marry(結婚)をマッピングするとどうなると思いますか?」

固唾を飲む、思考停止する、困惑する、いろんな表情がうかがえる。

「さっきの、離婚より、左、で、しかも、下に、表示されちゃいましたね」

誰も笑っていない。

うそーん、と、その様子を見ながら、会場の独特の雰囲気が面白過ぎて、笑いを必死に堪える。

普通の範疇からはみ出しがちのわたし、またしても、やり過ぎてしまったのだろうか?

P.S.
そん日終わり.受講生アンケートにて。

雑談が面白い

というコメント。

一縷の救い、である。

この記事が気に入ったらサポートをしてみませんか?