見出し画像

テキストマイニング|言語データから掘り起こされる見えざる深層

連日、吉本興業の問題がメディアを賑わせていますね。当初は反社勢力との関係が論点でしたが、今では吉本興業の企業体質の問題にすり替わった感があります。松本人志さんや加藤浩次さんが自らの進退を賭して世間に訴えたように、所属芸人さんは不当な圧力で会社に拘束されているようです。

ただ、労働者の地位向上を求めるならば、労働組合を結成して会社に団体交渉を申し入れるのが筋ですよね。しかし、どういうわけか「会社を辞める辞めない」という争点のみで、会社の何をどう改善したいのかが見えてきません。結局のところ感情論の応酬であり、反社との関係はおろか労働問題ですらなく、茶番で幕引きになる様相を呈しています。

大衆は「良い話」への耐性が低く、「ブラック企業に立ち向かう健気な芸人」という単純化されたストーリーにいとも簡単に回収されてしまいます。人は物語を求めるものです。見るに堪えない茶番だとしても、勧善懲悪が大好物なのです。

ところで、この茶番の契機となったのは騒動の渦中にいる二人、宮迫博之さんと田村亮さんによる記者会見でした。二人の記者会見はインターネットで配信され、会社ぐるみの反社との関係やメディアの報道姿勢など、疑惑が周囲へ飛び火しました。

僕が注目したのは、記者会見の全体を通し、何が意図されていたのかという点です。二人には弁護士が付いています。贖罪意識があるとはいえ、記者会見に丸腰で臨むなど考えられません。会見の背後にあった意図・戦略がどのようなものだったのか紐解いてみたいと思います。

分析にあたり、まずテキストマイニングという技術を紹介します。

テキストマイニングとは、文章から意味のある情報や特徴を見つけ出そうとする技術の総称です。近年では、SNSやWEBアンケートといったビッグデータから消費者の潜在ニーズを発見する解析手法として注目されています。文章というテキストデータは豊富で高密な情報を持つのですが、定性的であり、データ分析することが困難という欠点があります。テキストマイニングとは、こうした定性データを定量化する手法とも言えるでしょう。

共起ネットワークによる言語の定量分析

ごちゃごちゃ説明するより、どんなものか見ていただいた方が早いですね。早速、二人の会見全文をテキストマイニングにかけた結果をご覧ください。まずは宮迫さんの発言を見てみましょう。

これは共起ネットワークというテキストマイニングの分析結果の一例です。文章中に出現する語と語が共に出現する(共起する)関係性を直感的に捉えた図です。円が大きいほど出現回数が多いことを表し、線で結ばれているかどうかが共起性や関係性の有無を示し、線の太さが関連の強さとして表現されています。色の違いはテーマの違いです。テキストマイニングは文章の長短を問わず、内容の抽出や分類、傾向を一瞬にして読み取ることが可能となります。

共起ネットワークから、宮迫さんの発言を概観してみましょう。紫のまとまりをみると「記者会見」「謝罪」「吉本興業」「引退」が強い共起性で結ばれています。宮迫さんは事実の説明と自らの進退に関し、論理的な説明を意図していることが分かります。青のまとまりは写真週刊誌、赤のまとまりは疑惑の事象がテーマと考えられ、いずれも事実関係の客観的論述を主眼に置いていることが示唆されました。

また、中心にある緑のまとまりは興味深いネットワークです。「謹慎」「迷惑」「契約」「解消」といった自身の現状に関する語が並んでいる他、「正直」「気持ち」といった語も見られることから、心情吐露のまとまりと言えそうです。ただ、円の大きさは全体的に小さく、多数の語で結ばれている特徴もあります。このことから、宮迫さんの心象に関する発言は力強いキーワードが乏しく、優先度が低かったと類推されます。

このようにテキストマイニングを通すと、会見のテキストデータに客観的な解釈余地が生まれます。今回は共起ネットワークを紹介しましたが、他にもクラスター分析や主成分分析といった、ビッグデータから意味や規則性を読み取る分析も可能です。定量化とは、何も数字で表すことを目指している訳ではありません。「大きさ」「距離」「グループ分け」といった、外部から観察可能な尺度に変換することこそ定量化の目的なのです。

なお、分析にあたり会見テキスト全文は事前にデータ修正処理を施しています。たとえば「吉本興業」「吉本」「会社」といったワードは全て「吉本興業」に統合するといったデータクレンジングを事前に行っています。

浮かび上がる二人の役割の違い

それでは、続いて田村亮さんの発言をテキストマイニングしてみましょう。ここで、二人の結果の間に驚くべき差異が生じています。

これが田村亮さんの発言の共起ネットワークです。ご覧のとおり、「言う」「思う」「考える」「伝える」「決める」といった動詞が頻出していることが大きな特徴です。これは宮迫さんの共起ネットワークではみられなかった傾向です。

他の語を俯瞰すると、「ウソ」「気持ち」「正直」「本当」といった感情に関わる語が散りばめられていることが分かります。

赤のまとまりは宮迫さんと同様に記者会見に関する言及ですが、ひとつひとつの円が大きく、少ない数でネットワークを形成しています。さらに半分以上が「本当に」「言う」「思う」という心情に関わる語でした。このことから、亮さんは一定のキーワードを何度も繰り返し、内心を力強く訴える傾向がみられます。

全体的に、亮さんは円の数とサイズが宮迫さんより小さいことから、会見の発言は宮迫さんが主導し、亮さんは横からサポートあるいは捕捉するような連携であったことが伺えます。そして共起ネットワークの語の傾向から宮迫さんが事象の客観的説明を、亮さんが心情・感情の主観的説明をそれぞれ役割分担していたことが示唆されました。

記者会見の戦略デザイン

テキストマイニングにより明らかになったのは、二人の発言バランスと役割分担です。注目したいのは、会見を主導し、客観的事実説明を担当したのが宮迫さんだったことです。

報道された内容に沿うと、宮迫さんは報酬額が大きく、その後も写真撮影などの続報(これは求めに応じただけで疑惑ではないと思うのですが)が追撃されました。どちらかといえば疑惑の中心人物です。また、以前には恋愛スキャンダルのターゲットにされバラエティで釈明するなど、誠実性・信頼性が高いとは言いがたい人物像でしょう。

宮迫さんは印象が芳しくない以上、世間の感情的な拒絶を最小化することが主眼だったと思われます。よって「言い訳」と捉えられかねない主観的な発言を極力排し、客観性を帯びた話題を担当させる戦略だったのでしょう。また、そうした感情を極力排し会見を主導させることで、一定の信頼性の回復に繋げる狙いがあったように思います。

一方で、亮さんの役割は徹底的に世間の共感を呼び込む感情の吐露にフォーカスさせています。記者会見では二人に同じ役割を等分に持たせるのは悪手です。なぜなら両者の意見に食い違いがあれば信頼性を著しく損なうし、同じ主旨の発言をすれば「言わされている」「想定問答を読み上げている」印象に繋がるためです。特に今回は「事実説明」「謝罪」と、テーマが明確です。二人の役割が定まっていなければ、一方の発言に他方が「僕も同じです」と言わざるを得なくなります。世間の印象は急落するでしょう。

テクノロジーは人間を自由にする

今回の記者会見の分析程度であれば、会見全文を読めば同じ結論が導き出せるかも知れません。ただしテキストマイニングを通さなければ結果は定性的であり、「二人には明確な役割分担があった…ように思える」という印象論にしかならないでしょう。そもそもテキストマイニングを通したことで初めて「役割分担」という分析テーマが見えてきたようにも思えます。

吉本興業の話はこれぐらいにして、本題に入りましょう。

このテクノロジーは言語や会話といった定性情報をデジタル技術により定量化することで、背後にある行動原理や心理、メカニズムを炙り出すものです。実務でいえば、膨大な会議議事録から真の問題や傾向を抽出したり、全社の営業マンの訪問日報から顧客傾向やインサイト分析したり、幅広い用途に応用できます。個の知や発言といった小さな力を結集することで新たな発見を生む「集合知」と言われる現象です。

Google 検索はもちろん、Siri やアレクサを通じたユーザーの言語データ収集がいかに価値を持つか分かるでしょう。言うまでもなく、集めたデータは AI によりテキストデータ化され、テキストマイニングでの定量化を通し、今日もまた新たな関係性や時代の潮流、深層が発見・創出されているはずです。

つまり、テキストマイニングは言語という思考の産物がデータ化・定量化される、言わば「思考の定量化」のテクノロジーです。ここに、画像や動画のデータ分析といった「行動の定量化」を加えれば、人間がどのように思考し行動に移すか、見えざる深層に辿り着けるのではないでしょうか。その結果は一部の支配階層のものではなく、以前紹介した Tableau を通せば、高度かつ複雑なデータが僕たちの手で扱えるのです。

僕はテクノロジーの信奉者です。こうしたデジタル技術は、宗教や哲学が未だ辿り着けない「人間とは何者か」に初めて触れることができると期待しています。そして、それは人間が初めて自由を獲得することでもあるのです。

デジタル技術が人間の知性を凌駕し、僕たちの生活や思想に大きな変化がもたらされる転換点を「シンギュラリティ(技術的特異点)」といいます。その定義は様々ですが、僕にとってシンギュラリティとは、「人間が真の自由を手に入れること」です。

僕たちは不自由です。

意思の存在が疑わしいのに、自分は何がしたいのかを求めてしまう。

戦争を止めるほどの力を持つに至りながら、「こうあるべき」に囚われ人からどう思われているかが気になり心を蝕まれ、命を絶つことすらある。

悲しみが自分の中から生まれ後悔が積み上がり自分の心すら上手に扱えない

そうした矛盾と不自由が積み重なり、社会は分断され若者は生きづらくなっていく。

いっそ、見たいものだけを見て何もしないことが素晴らしいとすら感じてしまう。

これまで僕が書いてきた問題は、元を辿れば僕たちが僕たち自身のことをよく分かっていないから起こるのです。これまで思考の表出であった膨大な言語はデータとして蓄積されず、浮かんで消える存在でした。それがテキストマイニングにより関係性や本質が抽出され、僕たち自身が気付いていない深層が浮かび上がるとしたら。僕たちは言語の表出という「結果」から、言語の元となった思考の「原因」に辿り着けるかも知れません。

テクノロジーは人の言動の深層にある「なぜ」を明らかにします。人類が希求する自由の正体は「僕たちは何者なのか」の解明です。シンギュラリティが訪れた時、人間は過去から作り上げたもっともらしい規範から解き放たれ、初めて「なぜ自分はそう思うのか」「なぜ自分はそう行動するのか」に辿り着けます。そして、それは手の届くところに来ているのです。

シンギュラリティは、近い。


この記事が気に入ったらサポートをしてみませんか?