[dataiku] DATA HAIKERによるGUIベースのコンペチャレンジ!
開催日時: 2023/09/10 09:00-12:00
開催目的
本イベントの目的は、GUIベースのサービスであるDataikuを利用して、機械学習のプロジェクトを進める技術と知識を共有することです。
今回はKaggleプラットフォーム上で利用可能なTitanicデータセットを用いた分析を行い、その結果をKaggleに投稿することを目指しました。
参加者
Rikaさん(主催者)
私(主催者)
Nakamuraさん
Sakatokuさん
Tomoさん
わたるんさん
Dataikuとは?
GUIベースでも機械学習を実行できるサービス。
Dataikuはなんと…無料から利用が可能。(すごい)
Desktop版、クラウド版(14日間)、インスタンスを立てる等が可能でしたので、今回はそれぞれの環境で実行できました。
進め方
dataikuでの実行環境の学習
kaggleにポスト
まずはtrain, testデータを用いて機械学習を行いました。
ほぼ全てでGUIベースで処理を行い、提出用ファイルの作成をしました。
※個人的にはランダムフォレストを自動的に図示するポイントは…感動。
結果
参加者それぞれがKaggleのアカウントを作成し、各自でデータの投稿を行いました。具体的な分析としては、Titanicデータセットに含まれる家族の人数に関するデータを集計しました。
次に、このデータを使用してRandom Forestという機械学習アルゴリズムで学習を行いました。Random Forestは、複数の決定木を組み合わせて動作する、強力で汎用的な機械学習モデルです。
学習と分析の結果、、、なんと全員がKaggleのリーダーボードで1万位前後の位置にランクインすることができました!
これは、参加者が成功裏に機械学習モデルを構築し、意味のある結果を得ることができたことを示しています。
感想など
参加者はPythonを用いたKaggleへの投稿経験についても共有しました。以前はPythonを使用してデータ分析とモデル作成を行う際に結構な時間がかかっていたとの声が挙がりました。しかし、今回使用したDataikuはGUIベースのサービスであり、ドラッグアンドドロップ機能によって迅速かつ簡単にプロジェクトを進めることができました。
参加者全員がこの便利な機能に感動。特に、機械学習の知識が初めての人やプログラミング経験が少ない人にとっては、この機能は非常に手軽で使いやすいと評価されました。
参加者は多岐にわたる職種から集まっており。具体的には以下のようなバックグラウンドを持つ人々が参加しました。
データエンジニア
データサイエンティスト
データアナリスト
ビジネス関連職
まとめ
この多様な背景を持つ参加者の集まりが、DATAHAIKER有志によるチャレンジとして非常に価値あるものとなりました。職種を超えた協力により、より広い視野での議論が行われ、互いに異なる視点や専門知識を共有することができました。
このような多様な組織が集まることで、更に深い理解と学びが生まれる環境が創出されました。今後もこのようなチャレンジを続けて行き、多様なバックグラウンドを持つ人々が一堂に会する場を提供していくことが重要であると感じています。
次回予告
2023/10/1 9:00 SIGNATEさんのコンテストにチャレンジしてみます!
また次回参加の方には、今回の打ち合わせ内容をnottaで共有しますのでお申し付けください。主催のRikaさん、マエスのどちらかにご連絡頂けますと幸いです。
いやーーーー面白かった。