見出し画像

文科省の情報Ⅰ教員研修用教材第4章を検討する(5)質的データの分析

学習23は質的データの分析

画像1

(1) 質的データの種類とその扱い
(2) テキストデータの扱いについて

この2つは説明ぐらいなのでパス。

(3) テキストデータの可視化
ここでは日本語のテキストマイニングの基本について考えて,実際に実習をしてみよう。株式会社ユーザーローカルで は,様々なデータ分析のツールを Web ベースで提供している。ソフトウェアのインストールなしにデータさえ用意すれ ば,手軽に利用できるので,授業でも活用できる。今回は,(株)ユーザーローカルのユーザーローカルテキストマイニ ングツール (https://textmining.userlocal.jp/) を使ってみる。

実際に,(株)ユーザーローカル に行ってみる。

画像2

サンプルの「太宰治『走れメロス』」をクリックすると,教員研修用教材にあるものが表示される。

試しに,梶井基次郎の檸檬をやってみた。青空文庫からテキストをダウンロードして,フォーム入力ウィンドウにコピーし,「テキストマイニングする」ボタンをクリック。

画像3

簡単にできる。しかし,教員研修用教材にある,

Twitter の発言内容等も可視化してみると,生徒の興味や関心を高めることができる。そして,その傾向などについて, 生徒の主観的な解釈を含めて,考えていくことでテキストマイニングへの理解を深めることが可能である。

は,どうだろう。Twitterの発言内容を意味のありそうな分量を集めるだけでも大変だろう。データ集めを生徒にやらせるわけにもいかない。実際の授業の場面を想定しているとは思えない内容だ。

(4) テキストの分析とその可能性
テキストマイニングを中心にテキストデータの分析についての話をしてきた。これらのテキストデータの分析にはどのような応用が考えられるだろうか。例えば,最初にあげた小説の作品分析などでは,文学作品の作者の言葉の使い方などについて分析でき,未発表の作品などについて,その作者が書いたものであるかの真贋を確かめることができる。 テキストだけでなく,写真,絵画や彫刻などの作品に関しても機械学習や深層学習などの技術を用いて鑑定することが可能になる。また,後者のような SNS の発言分析などでは,発言の真偽だけでなく,その発言者の傾向や変化なども分析することが可能になる。 これまでは,コンピュータによる分析というと数量的な分析が主であった ものが,より人間の判断に近い分析ができるようになったということである。 また,これらの技術は,音声認識などにも活用されている。コンピュー タやスマートフォン,スマートスピーカーに搭載されている AI アシスタント(Siri,Cortana,Alexa など ) も人間の音声をテキストに変換し,形態素解析を行い,意味解釈を行い,その回答を返すように作られている。かつては単なるパターンマッチングであったものが,このようなテキストマイニング技術と機械学習などの技術を融合することにより,人間と同じような機能を持つ機器が登場してきている。

この説明だけで次の演習を行うことができるだろうか。

画像4

やった経験もなく,この課題を考えるのは無理な話である。

◇発展
日本語のテキストマイニングを行うためには,文章を意味のある最小限の単位に分解する形態素解析をしなければな らず,そのためのソフトウェアが必要である。有名なものとしては,「MeCab(めかぶ)」と「茶筅(ちゃせん)」の2種類がある。テキストマイニングを行う際は,これらの形態素解析システムをプログラミング言語やアプリケーションソフ トウェアから呼び出して使用する。
Windows ユーザーにはよく使われている「KH Coder」は「茶筅」を用いてテキストマイニングを行うアプリケー ションソフトウェアである。ここでは,統計解析ソフトウェア R と MeCab を用いた簡単な例を紹介する。

これをやってみるには,R,MeCab,RMeCab のインストールが必要である。これを端末ごとにインストールしなければならない。40数台のパソコンにインストールする手間を考えると,そこまでやる必要もない。教員としてやってみるのはもちろんよい。筆者のコンピュータにはRは入っているがMeCabはない。わざわざインストールして試してみるまでもないのでパスした。いずれ,形態素解析に興味が出ればそのときでよいだろう。

最後に,学習24 データの形式と可視化

画像5

ここでの実習は,Rを用いて箱ひげ図やヴァイオリンプロットを描くことだ。

画像6

ヴァイオリンプロットは数学の「データの分析」では学んでいない。
その他,この節にある,マリメッコチャート,モザイク図など,高校の教材の範囲ではないと思われる。実際に情報の教科書に載れば話は別だが。

さて,矩形データに関しては,表計算ソフトウェアのグラフ機能を使って表すことも一つの方法ではあるが, 先にあげた統計解析ソフトウェア R などで記述して,可視化することも可能である。また可視化専用のソフトウェ アも多く存在する。Tableau(タブロー)Desktop は,Tableau 社が提供している可視化ソフトウェアである。教 育機関での授業での利用や学生が使用する場合は,無償のライセンスを提供する Tableau Academic プログラム がある。

についても,同様である。どうも,その道の専門家が,高校の実情を考えもせずに書いたのではないかと思いたくなる。研修を受ける教員にしても,授業で扱う可能性が低ければ,そこまでやっておく必要もないだろう。やるんだったら,大学院に内地留学して学ぶくらいのことをさせるべきだろう。


以上,文科省の情報Ⅰ教員研修用教材第4章を見てきた。あとの2節は追うのも面倒でパスした。その気になれば追えるが,急いでやって,不消化のままここで報告してもあまりいいことがあるとも思えない。データマイニングなど,数日かけても何らかの結果が出るものでもないだろう。いずれ,じっくり腰を据えてやることがあるかもしれない。(現役の教員には無理だが。そんな時間はないから)