見出し画像

Yakitori.Rに参戦してきました。ペンギンデータをChatGPTに学ぶ(ChatGPT部, 大城)

こんにちは、ChatGPT部(チャットGPT部)の大城です。普段はDXやデータサイエンスのチーム立ち上げの支援をしています。コロナ禍の数年はリアルでの勉強会はなかなか開催できなかったのですが、このたび「焼き鳥屋を貸し切ってLT大会をする」というYakitori.R勉強会が開催されましたので、そちらのご報告です。(一応、私もLTでChatGPTも絡めて話してきましたのでChatGPT部の方にもまとめます)



そもそもR言語とは?

今はデータ分析や機械学習関連はビジネス現場ではほぼPython言語が主流ですが、Pythonがデータ分析にほとんど対応していなかった2010年代前半まではデータ分析・統計といえばR言語、という時代がありました。


その後、多くのパッケージがPythonでも実装されてどちらでも分析できる状態になったのが2018年前後くらいな印象です。

今でも大学や医療関係などではR言語をメインで使われているケースもありましたし、「痒いところに手が届く」という部分でのR言語はまだ健在かなと思います。(分析者個人がパッケージを作っているので、そのニーズが反映されやすい)

一方で、元々Rで分析して、C++やPythonで実装、というのは2010年ごろから言われていたことですので、24h365日稼働のシステムの安定性という点ではなかなか難あり、というのが実務上の特徴かなと思います。

2012年くらいに私がTokyo.Rの初心者セッションで毎回話してたスライドを抜粋するとこちら(2010年のgoogleでの利用方法について)

今も昔も変わってないですが、今は「Pythonで分析してそのままPythonで実装」ができるのと、google colabが初期はPythonのみ対応(3年くらい前まではRを使うにはちょっと小細工が必要だった)、という部分でレクチャーのしやすさも徐々にPythonに傾いていった印象があります。

肝心の、Yakitori.R#03

前置きが長くなってしまいました。Yakitori.Rはそんな中、R使いの猛者たち?が焼き鳥屋に集まって「ほぼ全員がLTをする」という会です。今回は時間の関係もあり半数くらいでしたが、非常に盛り上がりました。

写真とかはwebには上げにくいので、お店の模様だけ。

connpass情報とLTの内容も貼っておきますね。

因みに福岡や北九州エリアの方が大半でしたが、北海道からの参戦や東京からはTokyo.R運営の松村くんも参戦して非常に猛者猛者?してる感じのメンバー構成になっていました。(遠くからの参加、ありがたいですね)

私のLT資料:LT_ChatGPTxRxGoogleColab_ペンギンデータを使って分析・モデリングを学ぶ

こちら、貼っておきますね。ChatGPTとRとGoogle Colabでデータ分析の自習が捗るよ、という内容です。(後から気がついたのですが、先月のTokyo.RでもLTで同じようなネタ話されてる方がいらっしゃいましたね・・ちょっとネタ被りしてしまいすみません)

何枚か抜粋しますが、Google Colab上でランタイム切り替えで普通にR言語使えるようになってたんですね。多分3年くらい前からだと思いますが、このLT書いてて気が付きました。(Rのハンズオンやる機会も最近なかったですからねぇ・・)

以下、スライドずらずらと乗せていきます。

モチベーションについて


ChatGPT先生に聞こう!という方針。

ペンギンのデータセット。最近はアイリスデータじゃないんですねー

Google ColabでRを実行


これもっと早く知っていればハンズオンとか楽だったんですけどね。(2020年位からは多分ランタイムの変更で使える?)

分析手順をChatGPTに聞く


後半部分ですが、「どういう手順で分析をやれば良いか」という質問にも丁寧に答えてくれます。

可視化もサンプルコードをください、と依頼すると以下のような可視化は一瞬ですね。これだけでもRを使う価値はあるかと思います
(最近はPythonにも画像描画のggplotライブラリが移植されましたが、可視化に関しては本家本元のR言語の方がまだ細かい調整は得意な印象)

モデリングとデバッグ

ちゃんと学習データとテストデータに分割してくれます。この手法を使って、とかやるとライブラリを提案してすすめてくれます。ただ、ChatGPTが学習しているのは2021年9月までのものになるので、最新のパッケージに関しては個別にURL調べて、CPTプラスのWeb検索機能やプラグインを使って情報収集させるのが良いかもしれません。

あと、エラーが出た場合はエラーコードを突っ込むと、修正版のコード出してくれます。GPT-3.5よりGPT-4の方がこのあたりの手戻りは少ないです。

修正後のコードは、「モデリングパート以降を再度まとめて出力してください」のような形で出力してもらうことも可能です。いや、ほんとなんでも聞いてくれますね。


あと余談ですが、この辺は正直R言語よりPython言語の方がブレが少ない気がするので、なかなか悩ましいところではあります。
(ChatGPTは確率的に文章を生成しており、プログラム言語の記述も確率的に進めていますので、学習元としてはコードの記法が統一されているPythonの方がおそらく得意なはず)

評価について

モデルの評価についても進め方を教えてもらえます。Tipsとしては手順を聞くのと、表形式で聞くのが読みやすくするコツですかね。

モデル評価。ちょっとROCカーブがこんなになるんだっけ?というのはありますが、混同行列などはちゃんと評価していそうです。(1件判定間違い)

補足:出力内容の解説も可能

こんな感じで、学習済みモデルの評価指標に関する読み解き方も解説してくれます。( summary関数でモデルの中身を見た時の結果、の見方 )


いずれにせよほとんどコーディングなし、のコピペでここまでこれました。いやーほんとすごい時代になりました。

その他の発表など


LT1:病院で働く理学療法士がRを使ってデータ分析室室長になった話 @MITTI1210

@MITTI1210さんの発表。一発目から感動のお話でした(もはや基調講演レベル)。データ分析を病院内で5年間草の根で活動し、毎日4時間、休みの日は16時間データ分析の勉強をし、本業と関係のない部署のデータもどんどん分析していく、という姿はDXやデータサイエンティストの鏡だなと思いました。何より、それを「楽しい」と表現されていたのが印象的でした。



2本目以降のLTについて:TBD

ちょっとこのあと移動しないといけないので、後ほど埋めていきますね。

藤野先生からはこちらのスライドがアップされていました。


所感など:やはりリアルは良い・・!あと次は屋形船でやりたい


いやー、ようやくこのワイワイ感が戻ってきましたね。コロナ禍の3年間は基本は4名を超える飲み会もNGでしたので、セミナー企画側としてもこの手の取り組みはできなかったんですよね。(一応、Yakitori.Rは私も運営で入っているfukuoka.Rのスピンオフ企画なのですが、この3年はリアルで集まれず開催ができなかった、という背景があります)

LTの後に同時多発的にその話題で15名程が各テーブルでディスカッションになる、というこの光景をもっと復活させていきたいなと思いました。

あと半分冗談、半分本気で「10月くらいに隅田川沿いで屋形船を貸し切ってRの勉強会をしたいですね」という話は何名か賛同者を得られましたので、ちょっとその辺も追々企画していきたいなと思います。次はYakatabune.Rですね(笑

ということで、ChatGPTを使えばRやデータ分析の世界にも入ってこれますし、多くのRユーザーはPythonも書ける状態ですので、是非是非皆さんも遊びにいらしてください。

皆さんもどうぞ良いR & ChatGPTライフを・・!!(大城)

この記事が気に入ったらサポートをしてみませんか?