見出し画像

集計作業のお悩みをAIで解決/第3話「文章自由回答データの集計」

連載の3回目となる今回は、意見や感想など文章で記述された「文章自由回答データ」の集計について解説します。

1.文章自由回答データの集計でよくある悩み

文章自由回答データは、下記のように意見や感想など文章を聞くような質問で得られる回答結果です。文章を回答してもらう質問は、選択式で回答してもらう質問よりもより具体的で、思いがけないような答えを得ることができますが、データを扱う際に以下のような問題が発生します。

● 大量のデータをすべて読み切ることが難しい
● 作業する人によって解釈が分かれ、結果が大きく異なる場合がある
● 1人あたりの回答に複数のことが記述されている
   (1人の回答につき複数の番号を振らなくてはならない)
● 定量的に把握できるようにするにはコストも時間もかかる

画像1

上記の「作りたてコーヒーサービスがあったら利用したいか」と質問した場合、回答データは下記のように比較的長めの記述が多くなります。

画像6

このように「文章」で書かれた回答データのアフターコーディングは、第2話でご紹介した「単語」の自由回答データよりもさらにまとめ方が難しく、集計作業に時間がかかります。もし、手動でアフターコーディングをする場合、下記のような作業を行うことになり、1つ1つの回答を人が分類しなければなりません。

画像6

また、マクロミルが企業様からご依頼いただくアンケート調査の多くは、回答人数が数百人~数千人という場合が多く、上記の何倍もの作業を行わなければなりません。多くの意見に代表するようなタイトルを考えることも必要で、意見が増えれば増えるほど作るタイトルの数も増えていきます。そのため、作業する人によってその結果は大きく異なる事もあります。

このようなリスクを避けるため、回答データの文字列を単語や文節で区切り、それらの出現の頻度や共出現の相関、出現傾向、時系列などを解析する「テキストマイニング」と言われる手法を用いられることもあります。下記がテキストマイニングのアウトプットです。文章中で書かれた頻度が高い単語が大きく描画されています。

画像4

しかし、このアウトプットでは、具体的にどの意見が何件あるかといった定量的な把握や、単語の前後で意見された内容の把握ができません。例えば、上図では「飲む」という単語が大きく書かれていますが、回答者がどのようなときに、どうやってコーヒーを飲むのかまでは把握ができません。

そこで、アフターコーディングを行い、手動やテキストマイニングでは把握できない、より詳細なインサイトを確認します。膨大な回答データを効率的にアフターコーディングするにはどうしたらいいか?ここで第2話に続き、AIの技術が登場します。

2.アフターコーディングに活用するAI

第2話では「教師データ」を登録して予測するという手法を使った事例をご紹介しましたが、今回は別の手法を使用します。アフターコーディングの方法をお伝えする前に、そもそもAIとはどのようなもので、アフターコーディングの自動化にあたりどのような手法を使っているのかを解説します。

下記はAIの関係性を表す図です。今回ご紹介する手法は、下図の「教師あり学習」「教師なし学習」など、AIや機械学習の中の1つの手法として扱われるものです。

画像5

ここで、理解しやすいように、まずは図の中のキーワード(緑の部分)について解説します。

「AI」とは

Airtificial Interigenceの略称で、「人工知能」を意味し、主に人間の知能や知的活動を再現したものを指します(例えば、部屋の温度の高い部分を感知して冷風をそこに向けてくれるAI搭載エアコンなど)。

「機械学習」とは

明示的にプログラムしなくても学習する能力を、コンピューターに与える研究分野のことを指します。

「ニューラルネットワーク」とは

機械学習の一手法、人間の脳神経回路の仕組みを再現しようとしたもので、入力層、隠れ層、出力層の3種類の層からなります。

「ディープラーニング」とは

ニューラルネットワークの隠れ層を多層に(深く)したものです。可能な分野としては、画像認識や音声認識、自然言語処理、異常検知があり、コンピューターが自ら学習データから特徴量を抽出します。

このように、一口にAIと言っても階層があり、より深い階層にあるのが「機械学習」です。そしてその中の「学習」の手法も複数あります。次は図のピンク部分について解説します。

「教師あり学習」とは

入力データに対応する正解を学習させる方法。事前に学習をさせることで見たことのないデータでも分類が可能になります。

「教師なし学習」とは

正解を用いず学習する方法。データから共通する特徴を見出しグループに分ける、データの構造やパターンを抽出することなどが可能になります。

「強化学習」とは

正しく行動できたときに報酬を与えることで動作を獲得する方法です。

冒頭にご紹介した、アンケートの文章自由回答の集計にあたっては、事前に学習させるデータセットや決まったタイトルがない場合が多いため、「教師なし学習」を使います。次回は、この「教師なし学習」を活用し、アフターコーディングを効率化していく工程をご紹介いたします。次回もぜひご覧ください。

【筆者紹介】

画像6

【連載 全5話】集計作業のお悩みをAIで解決


この記事が参加している募集

スキしてみて

みんなにも読んでほしいですか?

オススメした記事はフォロワーのタイムラインに表示されます!