見出し画像

ワクワクから始めるAI・データ解析(3.可視化編 その1)

この記事は初心者向けのノーコードAI構築ツール「Humanome CatData」(以下「CatData」)を使い、まずデータをさわってAIづくりをはじめよう、という連載の第3回となります。これまでの記事は以下のリンクからまとめてお読みいただけます。

前回は、データ解析にかかる時間の7割はここに割かれると言われ、構築されるAIの精度に大きな影響を及ぼす行程「前処理」のお話でした。

今回から2回に渡って、データをグラフや図にして確認する「可視化」についてご説明します。前処理と可視化は密接に関わっています。

スクリーンショット 2021-04-20 16.07.37

「可視化」は、前処理が適切に行われたか?データに異常がないか?を確認したり、最初に立てた目標が難しいのか?解けそうなのか?をチェックする役割を担っています。「データは準備したし、早速AIつくるぞ!」と行きたいところですが、その前にデータ全体をながめて、傾向をつかんでおきましょう。

(1) 可視化画面までの進み方

それでは前回作成した前処理済みのデータ「Copy from #1」を利用して、可視化を進めていきます。

スクリーンショット 2021-04-22 20.16.25

テーブル一覧で「Copy from #1」をクリックすると、テーブルの利用目的を選ぶポップアップがあらわれます。これから行う「可視化」を選んで保存をクリックし、「テーブルの詳細」へ移動します。

今回は前処理の済んだデータを利用するので、この段階でアクションを新たに追加する必要はありません。番号④〜⑥の順にクリックし、先へ進んでください。

(2) 可視化例1:異なる種ではくちばしの長さも異なるのか?

ここから、可視化の例をいくつかご紹介します。最初に「種によってくちばしの長さは異なるのか?」について確認します。

スクリーンショット 2021-04-22 20.29.56

可視化に進むと、ペンギンの種名の割合を示す円グラフが表示されています。空欄となっている列2をクリックし、「くちばしの長さ」を選びます。すると、X軸(横軸)が「種名」・Y軸(縦軸)が「各個体のくちばしの長さ」を示すグラフに自動的に変わります。

この図から、アデリーペンギンのくちばしは、他の2種に比べて短い傾向があり、種が異なるとくちばしの長さも異なっていることが分かります。

(3) 可視化例2:くちばしの長さと水かきの長さから種名を決めることはできるのか?

スクリーンショット 2021-04-20 9.51.27

次に「くちばしの長さと水かきの長さから種名を決めることができるのか?」について確認します。

(2)の事例ではX軸(列1)が「種名」、Y軸(列2)が「くちばしの長さ」を示すグラフでした。今回は列2はそのままで、列1を「水かきの長さ」に変更します。

すると、それぞれの個体について、X軸で水かきの長さを、Y軸でくちばしの長さをあらわすグラフになりました。最初の表示では全ての個体がまとめて表示されているので、種名ごとに点の色を変えてみます。

スクリーンショット 2021-04-20 10.12.43

このグラフから、ペンギン3種にはくちばしや水かきの大きさに一定の差があることが分かります。「ペンギンの種名を予測するAI」には、この2つの要素を利用することで、精度の高いAIを構築できそうです。

なお、可視化の結果、項目間の差があまりみられなかった場合、AI構築の難航が予想されます。精度を上げる工夫を必要とすることが多いです。

AIは人間が予想できなかった関連を見つけることもありますが、その可能性は100%ではありません。あらかじめデータ分布を確認することで、これから作るAIの精度にあたりをつけることができます。

(4) 可視化例3:性別・誕生年によって個体の大きさは変わるのか?

ヒトは平均的に身長・体重ともに男性の方が女性より大きい傾向があります。ペンギンに性差は無いのでしょうか?

スクリーンショット 2021-04-20 12.44.51

点の色を、種名から性別に変更してみます。緑がオス、オレンジがメスです。それぞれの種の塊のなかで、大きい個体はオスの傾向が大きいことがわかります。ペンギン種の予測AIには、性別情報も加えると予測精度が高くなりそうです。

スクリーンショット 2021-04-20 12.52.32

次は誕生年で比較してみましょう。生まれ年による体の大きさの差は、どのペンギン種もないようです。どうやら誕生年を利用した予測は難しそうです。しかし、年が違っても傾向は大きく変わらないので、継続的に観察したデータを加えてAI構築を行えば、未来のペンギンの種予測に使えるかもしれません。

このように、データをいろいろな角度から可視化することで、データに潜む新たな知識を取り出すことができます。データの持つストーリーを、楽しく読み解いてみてください。

(5) 補足:可視化画面内での個別データの確認方法

スクリーンショット 2021-04-20 13.15.27

グラフ内の点が、どのデータに由来するのか確認する時は、その点の上にマウスカーソルを移動してください。今回の場合は、どの個体番号由来のデータなのかが表示されます。何らかの理由で、値が他から大きく外れている可能性などについて確認できます。

次回のお知らせ

今回は、データをグラフにすることで、情報の組み合わせを比較し、予想の方向性を明確にする方法について説明しました。次回もデータを様々な確度から観察する「可視化」の実例について、引き続きご紹介していきます。


AI・DX・データサイエンスについてのご質問・共同研究等についてはお気軽にお問い合わせ下さい!

この記事が気に入ったらサポートをしてみませんか?