レンタサイクルの利用者数を予測するAIをノーコードで作ってみた|第1回:利用者数と天候の可視化
こんにちは!ヒューマノーム研究所でインターンをしている佐藤です。
今年の夏休みは旅行へ行った方も多いのではないでしょうか。私も友人と旅行へ行きサイクリングをしました!
本連載では、レンタサイクルのデータを当社が開発するHumanome CatData(以下CatData)を用いて分析し、天候などの情報から日々の利用者数を予測してみようと思います。
これまでご紹介してきたCatDataの記事では、「猫の種類を予測する」というような対象が属するカテゴリをAIで予測する、という問題を解いていました(図1 左)。今回は数値(利用者数)を予測するため、回帰問題を解くAIを構築します(図1 右)。
レンタサイクルのデータを対象としていますが、商品の販売数や来客数を予測するAIも同じように構築できます。商品廃棄を削減したい小売業や、適切な人員配置を行いたいサービス業などでご利用いただける事例です。ぜひ最後までお読みください!
連載初回となる今回は、レンタサイクルのデータをCatDataを使って可視化し、データの傾向を確認していきます。
今回利用するデータについて
本連載では、以下のレンタル自転車に関連するデータを利用します。
このデータは、以下で公開されているデータの列名を変更したものです。
解析するレンタサイクルのデータは、”instant”、” 日付”、”季節”、”年”、 “月”、”祝日”、”曜日”、”勤務日”、”天気”、”気温”、”体感温度”、”湿度”、”風速”、”臨時ユーザー利用数”、”登録ユーザー利用数”、”全ユーザー利用数”の計16列で構成されています。こちらは、2011年1月1日〜2012年12月31日までのデータをまとめたものです。
今回の連載では、「登録ユーザー利用数」を予測するAIを作成します。最初に、データをグラフで可視化することで、登録ユーザー利用数の予測に必要となる変数に当たりをつけていきます。
可視化の方法
前準備:テーブルの作成
さっそく、登録ユーザー数を予測するときにどの変数が必要になるのか調べていきます。今回は、登録ユーザ数と、”日付”(カレンダー、折れ線)、”気温”、”湿度”との関係について見ていきます。特に”日付”は今まで扱っていない日時を表す列のため、どのようなグラフで可視化されるのか楽しみです。
まず、「テーブルの新規作成」からデータを読み込み「保存」をクリックします(図2)。テーブルの利用目的を選択する画面が表示されるので、「可視化」を選択して保存すると、「前処理:アクションセットの編集」まで自動で移動します。右上にある可視化ボタンを押すと「可視化」のページに移動します。
ユーザー利用数と日付の関係を可視化
最初は”登録ユーザー利用数”と”日付”について可視化したいと思います。以下の順番で操作します。
列1を”登録ユーザー利用数”、列2を”日付”に設定
グラフは折れ線グラフを選択
グラフが「平均値」の状態でデータを確認(図3 左)
グラフを「合計値」に変更し、再度データを確認(図3 右)
この手順で表示されるグラフから、毎月の”登録ユーザー利用数”の変化を確認することができます。グラフの縦軸の値は、グラフの上部にある、「平均値」、「合計値」、「最大値」、「最小値」、「中央値」を選択することで変更できます。
例えば、図3左側の折れ線グラフは、1日あたりの登録ユーザ利用数の平均値を月毎に表しています。図3右側のグラフでは、毎月の登録ユーザ利用数の合計値の変化を確認することができます。
平均値で確認しても合計値で確認しても2012年2月から急増し、2012年9月から減少しています。また、2012年の方が全体的に利用者数が多く、2011年でも2012年でも夏から冬が利用者数が多い傾向にあることが分かります。
また、”登録ユーザー利用数”と”日付”の関係性は、折れ線グラフだけではなく、カレンダーチャート形式でも確認することができます。早速以下の順番で操作してみましょう!
列1を”登録ユーザー利用数”、列2を”日付”に設定
グラフをカレンダーチャートへ変更(図4)
カレンダーチャート形式で表示した場合、青色→緑色→黄色→オレンジ色→赤色の順で利用者が多いことを示します。図4から、2011年よりも2012年の方が圧倒的に利用者数が多いことが読み取れます。同様の情報は折れ線グラフでも確認できています。
また、折れ線グラフでは夏から冬にかけて利用者が多くなる傾向にあると考えましたが、カレンダーチャートを見ると、2012年3月から少しずつ利用者数が増えていることが分かります。
ユーザ利用数と気温の関係を可視化
次に、”登録ユーザー利用数”と”気温”について可視化していきます。
列1は”登録ユーザー利用数”のまま、列2を”気温”に変更
ラベルを”instant”に設定
気温が高くなれば高くなるほど、”登録ユーザー利用数”が増える傾向であることが分かります。”日付”のカレンダーチャートでは7〜9月の間で赤い四角が多いことから、気温が高い7〜9月は利用数が多くなり、図5のグラフになったと考えられます。
ユーザ利用数と湿度の関係を可視化
最後に”登録ユーザー利用数”と”湿度”について可視化していきます。
列1は引き続き”登録ユーザー利用数”のまま、列2を”湿度''に変更
ラベルはそのまま”instant”で、グラフは”散布図”に設定
この散布図(図6)からは、”登録ユーザー利用数”と”湿度”の間では、大きな関係性がないと読み取れます。
おわりに
前回書いた「ポケモンのデータについての分析」の時よりも、CatDataがよりパワーアップしていました!データを確認するときに使うことのできるグラフの量が多くなっていて楽しかったです。他にも、左上に猫のアイコンが追加されたのに気づきましたか?とても可愛いですよね。
(広報担当より:以下の記事でアイコンの話をご紹介しています!)
今回は、レンタサイクルの利用者データを使って、折れ線グラフやカレンダーチャート、散布図で可視化をしてみました。CatDataは、表示する際に用いる変数を変えることで、積み上げヒストグラムや蜂群図など、さまざまな形式でデータを見ることができます。ぜひ他のグラフも利用してデータを確認してみてください。
次回は、登録ユーザ利用数を予測するAIを作成していきます。
関連記事
クラス分類について説明した記事
画像・動画を利用したAIについて(Humanome Eyes)
AI・DX・データサイエンスについてのご質問・共同研究等についてはお気軽にお問い合わせ下さい!
この記事が気に入ったらサポートをしてみませんか?