中学生がAIを作って実験してみた話 #2【教員視点|前編】
こんにちは。ヒューマノーム研究所 次世代先端教育特命研究員の辻敏之と申します。普段は中学・高校の教員をしながら、ヒューマノーム研究所のお手伝いをさせていただいています。
2021年12月15日(水)に三田国際学園中学校(東京都世田谷区)にて、当社が三田国際学園中学校と共同開発する教育プログラム「Humanome CatDataを用いたAI構築ワークショップ」を開催しました。このワークショップは、昨年7月に中学3年生対象に行われたものを中学2年生を対象として実施したものです。
当社が開発する「Humanome CatData(以下「CatData」)は、表データの解析やAI構築ができるノーコードツールのひとつです。 初心者もデータ解析の楽しさが気軽に体験できるように、プログラミング・数式の知識いらずで操作できる作りになっています。
前回ワークショップの様子は、以下のリンクをご覧ください。
今回は中学2年生13名が参加し、 CatDataを用いてカテゴリデータの予測を行うAIを構築しました。このワークショップを通して、AIとはなんなのか改めて考え、理解を深めることができたようです。
内容は前回のものとほぼ同じで、概要については以下に簡単にまとめました。前回と同じことをレポートしても面白くないので、ワークショップを設計・実施した教員の目線から、授業の様子を2回に渡ってまとめてみたいと思います。
1. 授業内容概要
AIについてなにを知ってる?
AIを使った予測とは
カテゴリデータとは
カテゴリデータの例:Irisデータ
パーツのサイズから種類を予測しよう
CatDataの導入
Irisデータの学習
カエデを模した羽根の落下について
カエデを模した羽根データの学習
新しい羽根
設計
落下実験
学習モデル
予測
データ追加とモデル強化
予測コンペティション
2. AI(機械学習)にできることの整理
CatDataを使うのでプログラミングの必要はありませんが、AI(正確には機械学習)で何ができるのかを整理し、今回のワークショップでのターゲットを明らかにする必要があります。今回はカテゴリデータを用いて、データからカテゴリを予測するAIをつくるというストーリーに仕立てました。
はじめにミニマムな例としてデータサイエンス入門でよく使われる Irisデータセットを用いました。アヤメの種類が属性(=カテゴリ)にあたり、カテゴリによって見た目が異なることを確認しました。
利用したIrisデータは以下のGoogleスプレッドシートです(項目名を日本語にしています)。
見た目が異なるということはどういうことなのか、生徒たちに問いかけ、意見を聞きました。また、3種のアヤメの違いを説明してもらい、言葉で説明することが難しいことを実感・共有しました。
3. CatDataの導入
先の共有事項を踏まえた上で、CatDataにIrisデータセットを読み込ませます。可視化を行うことで、種類によってパーツのサイズが違うことを眼で確認できることを体験し、データを可視化すると言語化しやすくなることの理解を促しました。
CatDataでは表示するパラメータを指定するだけで簡単に可視化されます。散布図や蜂群図といった中学2年生があまり取り扱ったことのないグラフでも直感的に何を示すのか理解することができました(図2)。
一見ここまでの話はAI構築とは直接関係ないように感じますが、データを理解することでよりよいAI(=学習モデル)を構築できるようになります。そのためにも予測したいカテゴリとその他のデータの関係を知ることはとても重要です。
ここで、アヤメの画像とCatDataによるデータの可視化によって、アヤメのパーツを精査するとアヤメの種類が予測できることを理解し、ならびにこの理解と同じように機械に理解させることが「学習」だと解説しました。これはあくまで比喩で、機械学習は数学的に境界面を探す作業です。とはいえ、かけ離れているわけではないので、中学生時点での理解としては十分だと考えています。
次に、CatDataでランダムフォレストを用いて、予測対象をアヤメ種類とする学習モデルを構築しました。こちらもマウスでクリックするだけでできるので簡単にモデルを構築することが出来ます。
ワークショップでは「ポチポチしていたらなんかできた」「なんかできたものでうまく予測できた」という現象が起こりがちです。これはソフトウェアやシステムが良く出来ていることと、うまくいくサンプルが用いられることで起こる「接待ワークショップ」あるあるです。本ワークショップでは接待はしないと心に決め、簡単なサンプルでは「データを理解すること」を求めました。生徒にある程度の認知的負荷を与えることで考えながらポチポチしてもらうことを狙っています。
これが功を奏したのかどうかわかりませんが、生徒から図2で示したversicolorとvirginicaの重なり合った部分がうまく分けられるのか?といった疑問が出ました。これは非常に良い疑問だと思います。
作成したモデルをテストデータで評価した結果、生徒から「すごい」という声が上がりました。図3のようにトレーニングデータだけでなくテストデータでも精度の高い予測を行えたためです。この図ではたまたま両方とも完全に正しく予測されていますが、そうでない場合でもかなり高精度で予測することが出来ます。
また、今回はランダムフォレストを用いているので、変数の重要度もわかります(図4)。生徒たちはこれを見て、自分たちが可視化した時に、結果が良く別れるように見えた2種類の要素が重要だったことを確認し、納得していました。可視化した結果が、予測において重要度が高いことが繋がったようです。
4. 前編のおさらい
ここまでの授業で、Irisデータセットを用い「データの読み込み、可視化、学習、モデル評価」を行いました。
「学習」するということ
「予測」するということ
データを可視化すること
データには意味があるということ
などにざっくりと触れたつもりです。
「AI構築ワークショップ」というタイトルですので、AIを構築することが目的となります。その過程で、データを分析し、理解することが大切なのだということを知らしめるのが裏テーマとなっていました。
次回は、本ワークショップのメインテーマであるカエデの種子を模した羽根の話をしたいと思います。ぜひお読み下さい!
5. 関連記事
総務省「情報II」教材を利用した機械学習の授業案
表データを利用したAI学習テキスト(Humanome CatData)
画像・動画を利用したAI学習テキスト(Humanome Eyes)
AI・DX・データサイエンスについてのご質問・共同研究等についてはお気軽にお問い合わせ下さい!
この記事が参加している募集
この記事が気に入ったらサポートをしてみませんか?