けんちゃんのAI Quest攻略日記#11「第3回ハンズオン講座を開催しました」
見出し画像

けんちゃんのAI Quest攻略日記#11「第3回ハンズオン講座を開催しました」

デジテック for YAMAGUCHI 事務局

デジテック運営事務局 兼「Y-BASE」スタッフのケンタです。
本日はQuest開始から164日目です。早いもので6ヶ月目に突入です。
攻略日記もようやく11回目を迎えることができました。
今回は12月4日(土)に開催した「やまぐちAI Quest」第3回ハンズオン講座の様子をお伝えします。
ぜひ最後まで読んでもらえると嬉しいです。

「はじめに」

前回のまとめの際、「12月に親知らず2本を抜歯する予定です。次回は抜歯直後で喋れないかもしれません!」と高田講師が仰っていました。聞いているだけで身震いするような衝撃発言でしたが、当日は痛み止めを使ってなんとか会話できる状態まで回復されていたようです。事務局としては高田講師のお声を拝聴でき、ひと安心です。胸を撫で下ろしました。
参加者は現地参加14名、オンライン参加10名の合計24名でした。

「おさらい」

002 お題

テーマは「Jリーグ観客動員数予測に挑戦!」です。
「知識」と「実践力」のギャップを体感して、具体的に何を考える必要があるか、次にどんなことを学べば良いか、気づきを得ることが目的です。
2012年~2014年シーズン前半の実績データを使って2014年シーズン後半の全試合の観客動員数を予測します。分析しやすいようデータを加工し、仮説を立てて精度の高い予測モデルの開発を目指します。
・どのようなデータが揃えられるか?
・観客動員に影響しそうな要因は何か?
・その中でも影響が大きそうな要因は何か?

どうすれば予測モデルの精度が上がるか?グループワークで検討します。


「予測モデル改善・発表準備」

まず、チャットやビデオ会議ツールを使って現地参加者とオンライン参加者が活発に意見交換や分析について議論をされ、これまでの取り組みの成果をとりまとめ、最終発表に向けた準備を行いました。

004 グループワーク

006 グループワーク

005 グループワーク

003 グループワーク

007 講師ワーク

講師の方も各グループへの助言など最終発表に向けて準備中です。

008 事務局ワーク

デジテック事務局も同じく準備中です。


「最終発表」

いよいよ各グループの結果をまとめた最終発表です。
今回は、評価関数RMSE:予測モデルの精度を測る指標)の最高スコアのほか、これまでに取り組んで来た仮説や分析手法について発表しました。
ここでは、各チームの結果の”まとめ”を中心にご紹介します!仮説や詳しい分析手法・分析結果については省略します。
これから同じようなテーマを学習される方もいらっしゃると思いますので、ネタバレにならないよう注意しながら執筆しています!

009 最終発表

011 最終発表

010 最終発表

012 最終発表

「なないろ」一笑懸命
 最高スコア:2658
・知見・情報収集能力・可視化技術など多岐に渡る能力の集約が重要
・各メンバが得意分野を分担して担う事がプロジェクト成功につながる
・メンバのコラボには密なコミュニケーションと積極的な情報発信が重要
・メンバが等しく参画意識を持てるような雰囲気作りが重要

「Queen of カッサンドラ」目指せ3000番台
 最高スコア2882
・未知のデータの予測をしてなんぼ
・投稿に上限があってもとりあえず投稿までしてみる
・クスレイピングやAPIなの今後に活かせそうなスキルもついた
・Pycaretはすごい
・機械学習は奥が深い

「素人軍団」優勝しちゃる!!
 最高スコア3766
・仮説→実行→失敗→改善⇒実行→のサイクル繰り返しが大切
・エラーは自分の理解不足を指摘してくれる見方
・1つの特徴量だけ見てデータを削除してはいけない
・データ分析って面白い!!!
・データ分析(python)って凄い!!!
・データ分析って怖い???

「ガイアの4明け」AIを楽しく!!データに愛着を!!
 最高スコア3228
・今回学んだ手法を判断するためには統計学の学習が必要
・データ分析にはグラフ化が大事
・データ分析の全体的な流れがわかった
・みんなで一緒に考えることの大切さが分かった
・知識の乏しいテーマは新しい分野のチャンスと捉えてチャレンジしたい


「まとめ」

予測モデルの開発に正解はありません!」講師のお言葉です。
精度を高めるためには、あらゆるアプローチ探求するしかないのです。Questです。(私も小学生の頃から好きな言葉の1つです。)

013 まとめ

・データ分析の泥臭さ(データ前処理の重要性)を感じてほしい
・どの変数がどの程度、予測結果に寄与しているのか把握する
・外れ値(欠損値)を把握して何故外れ値になったのか把握する
・課題は何故課題になっているのか解決の仮説を考える
・予測データに近い学習データを使うと良い
・結果の検証を深掘りする(データのサンプル数は適正か?)
・ロジックモデルを使用して確率の問題に置き換えても良いかも
・データ分析は目的が大事です
という講評をいただいたところで講座は終了となりました。
予測精度の向上に影響しそうな様々な要因を考えて、仮説を組み、データを加工してモデルを作成する。グループワークにトータル50時間も費やしたチームもありました。やり切っていただけたかな!と思います。
この2か月間、各チームは評価関数RMSE3000を下回るという目標のために、楽しみながらもかなり本気に取り組まれた様子が伺えます。
参加者の皆様、大変お疲れ様でした。
講師の皆様、大変ありありがとうございました


「あとがき」

前回に続き、今回もオフライン形式で開催することができました。
講師の皆様ありがとうございました。やはり現地集合形式でのハンズオンは参加者同士の一体感が感じやすくて良いですね。
今後、AIを活用できる人材はますます必要とされ、期待される人材です。デジタル技術を使って課題を解決して生活をより良くする。今回は、そういったAI人材の育成を進められたかなと思っています。
「やまぐちAI Quest」はスタートしたばかりですが、これからもトップレベルとなるAI人材の育成を目指して様々な企画を考えていきます。
ご期待ください!

ここで1つご報告です。
今回、講座の最後に皆さんと写真を撮影する予定でしたが、忘れてしまいました。オンライン参加者は会場の9面マルチの大画面に登場していただき、その前に現地の参加者と講師が笑顔で集合している写真です。
私の頭の中では今でもそのイメージが浮かんでいます。せっかくの現地開催だったのに、、、、と反省したところで、次に皆さんとお会いできる機会を楽しみにしながら、今回はこのあたりで終わりとさせていただきます。
最後までお読みいただきありがとうございました。

スキありがとうございます!
デジテック for YAMAGUCHI 事務局
デジテック for YAMAGUCHIの運営事務局のスタッフが交替で記事を掲載します。是非サイトもご覧ください→https://digitech-ymg.org/ やまぐちDX推進拠点Y-BASEのサイトはこちら→https://digitech-ymg.org/y-base/