見出し画像

探索的データ分析(EDA)ツールの歴史と進化

ChatGPT の Code interpreterはいいですね。
現段階では、トークンの面や重たい処理で実行できないこともありますが、これはたぶん時間の問題。
触ってるとパラダイムの変化を感じさせてくれます。

これまでの歴史の過程で、探索的データ分析(EDA)ツールは様々な進化を遂げてきました。どのような進化の過程を辿ってきたのか、またこの進化の過程で分析者に求められるスキルセットはどのように変化してきたのか。。。そしてこれからはどうなるのか?

このようなことをテーマにChatGPTと対話してみました。

  • まずはじめに、EDAツールの年代ごとの特徴を示してもらいました。

EDAツールの年代ごとの特徴を以下にテキスト形式でまとめます。

1. 1970年代 - 基本統計&グラフィカルツール 
- 特徴: EDAの初期段階で主に基本的な統計手法と単純なグラフィカルなツールが使用されました。これにはヒストグラムや散布図などが含まれ、データの基本的な傾向を視覚化するのに役立ちました。
- 利点: データの視覚的理解に適しており、分析の基本を提供。
- 課題: 複雑なデータセットや高度な分析には対応できない。

2. 1980~1990年代 - 統計ソフトウェア 
- 特徴: ExcelやSPSSなどの統計ソフトウェアが普及。これらはより複雑なデータセットの処理と分析を可能にし、広範囲の統計機能を備えていました。
- 利点: 多様な統計分析機能とデータ管理が一元化された。
- 課題: ソフトウェアの習得が必要であり、カスタマイズ性に限界がある。

3. 2000年代初頭 - オープンソース言語 
- 特徴: RやPythonなどのオープンソースプログラミング言語が登場。これらは高度な統計分析とカスタマイズ可能なデータ視覚化を提供しました。
- 利点: 柔軟なカスタマイズと複雑なデータ処理が可能。
- 課題: プログラミングスキルが必要であり、初心者には敷居が高い。

4. 2010年代 - インタラクティブ探索ツール 
- 特徴: TableauやPower BIなどのインタラクティブな探索ツールが登場。これらはユーザーフレンドリーなインターフェースを提供し、非技術者も容易にデータ分析を行えるようになりました。
- 利点: 直感的な操作で複雑な分析が可能。非技術者にもアクセスしやすい。
- 課題: 特定の分析手法や高度なカスタマイズには限界がある。

5. 現在~未来 - 自然言語処理統合ツール 
- 特徴: GPTのようなLLMを統合したツールが登場。自然言語でデータに問い合わせ、分析を行うことが可能になりました。
- 利点: 非技術者でも直感的に使える。複雑な分析を容易に行える。
- 課題: 自然言語理解の精度やデータセキュリティに関する課題。

これらの年代を通じて、EDAツールはよりユーザーフレンドリーかつ強力な分析機能を備える方向で進化してきました。特に最近では、LLMの統合によって、非技術者でも高度な分析を行えるようになるという大きな変革が見られます。

ChatGPT4

2010年代までは、視覚化方法の開発、人的対応のソフトウェア化、高度化、操作含めた効率化という流れ。
LLM統合以降は、方法やツールを極限まで研ぎ澄ませるアプローチから、分析そのものをアシスタント化する流れに変わりました。

道具(ツール)がよくなれば、その道具(ツール)を使いこなすスキルを身につけることを繰り返していたのがこれまで。これからは同じ感覚ではない気がします。

次は、このあたりのことをChatGPTに尋ねてみました。

  • 求められる知識・スキルも変化してきていますね。どのように変化してきたか、今後実践的能力を高めるために必要になることは何かを解説してください。

EDAツールの進化に伴い、データ分析に求められる知識やスキルも大きく変化してきました。それぞれの変化と、今後実践的な能力を高めるために必要な要素を以下に解説します。

### EDAツールの進化に伴う知識・スキルの変化

1. 初期の基本統計&グラフィカルツール :
- 求められた知識・スキル : 基本的な統計学の知識、単純なグラフの解読能力。
- 変化 : データの基本的な理解に重点を置き、グラフや表を使った簡単な分析を実施。

2. 統計ソフトウェアの時代 :
- 求められた知識・スキル : ソフトウェアの操作方法、より高度な統計学の知識。
- 変化 : 特定のソフトウェアの使い方を覚え、データのより詳細な分析を行う能力が必要に。

3. オープンソース言語の普及 :
- 求められた知識・スキル : プログラミング言語(R、Python)の知識、高度な統計分析技術。
- 変化 : より複雑なデータセットの処理やカスタマイズされた分析が求められるように。

4. インタラクティブ探索ツールの出現 :
- 求められた知識・スキル : ソフトウェアの直感的な操作、データ視覚化の理解。
- 変化 : 技術的な知識よりも、データに対する直感的な理解と視覚化能力が重視されるように。

5. 自然言語処理統合ツールの時代 :
- 求められた知識・スキル : 自然言語でのデータクエリ能力、基本的なデータリテラシー。
- 変化 : プログラミングスキルよりも、データをどう問い合わせ、解釈するかが重要に。

### 今後、実践的能力を高めるために必要なこと

1. データリテラシー :
- データを理解し、適切に解釈する能力は、どのツールを使う場合でも重要です。データの意味、その背景、どのように収集・処理されたかを理解することが必要です。

2. クリティカルシンキング :
- データから得られる情報を批判的に分析し、意味ある洞察を導く能力。データに潜むバイアスや限界を理解し、的確な結論を導くことが重要です。

3. コミュニケーションスキル :
- 分析結果をわかりやすく伝える能力。データストーリーテリングや視覚化技術を用いて、データの洞察を効果的に伝えることが求められます。

4. 継続的学習 :
- データサイエンスの分野は常に進化しています。最新のトレンドやツール、技術に遅れないように、継続的に学び続ける姿勢が重要です。

5. 倫理的判断 :
- データの使用において、プライバシー、セキュリティ、倫理的な側面を考慮する能力。データの適切な扱い方を理解し、責任を持って使用することが重要です。

以上のように、EDAツールの進化と共に、データ分析に求められるスキルセットは変化しています。将来的には、技術的なスキルだけでなく、データに対する深い理解と批判的な思考がますます重要になると考えられます。

ChatGPT4

“プログラミングスキルよりも、データをどう問い合わせ、解釈するかが重要に“。。。うん、そうそう、これだよね。

これまでと同じスキルセットを求めるのはナンセンス。LLM活用を前提とした場合、我々に必要なスキルセットはどうなるだろう?

最後に、このあたりのことをChatGPTに尋ねてみました。

  • EDAプロセスにを実施するために最低限の知識とスキルは必要。これらがないとLLMから逐次提案がなされても適切性、客観的な合理性が判断できないことになるから。 ただ、LLMが提案したことをユーザーが判断できない場合も、LLMとユーザーのやり取りを通じて、ユーザーは不足する知識とスキルを補うことができますね。

おっしゃる通り、LLMを使用する際には、EDAプロセスにおける基本的な知識とスキルが必要です。ユーザーがLLMからの提案の適切性や合理性を判断できるように、以下のような知識とスキルが求められます。

### EDAプロセスにおける必要な知識とスキル

1. データの理解 
- データの種類と特性(数値、カテゴリカル、時系列など)
- データソースとその品質

2. データの前処理 
- データクリーニング(欠損値、外れ値の処理)
- データの変換(正規化、標準化)

3. 基本的な統計分析 
- 記述統計(平均、中央値、モード、標準偏差など)
- 分布の分析(ヒストグラム、箱ひげ図)

4. 探索的データ分析 
- データの視覚化(散布図、棒グラフ、折れ線グラフ)
- 相関関係の探索

5. 仮説の設定と検証 
- データに基づいた仮説の形成
- 分析を通じて仮説の検証

6. 異常値やイレギュラーの検出 
- データ内の異常値や外れ値の特定
- データの品質に影響を与える要因の特定

7. データの解釈とコミュニケーション 
- 分析結果の解釈と意味付け
- 分析結果の効果的な伝達

### LLMとのやり取りによる知識とスキルの補完

- LLMによる指導 : LLMはデータ分析のステップや理論を説明し、ユーザーの理解を深めます。
- 対話による学習 : ユーザーはLLMとの対話を通じて、不明な点を質問し、知識を補強できます。
- 実例に基づく学習 : LLMは具体的なデータセットに基づいて分析を行い、実践的な学習を促進します。
- フィードバックと改善 : ユーザーからのフィードバックを受けて、LLMはより適切な分析方法や解釈を提供します。

LLMはEDAプロセスをガイドする強力なツールですが、最終的な判断や解釈はユーザー自身が行う必要があります。したがって、EDAの基本的な知識とスキルは、LLMを効果的に活用するために不可欠です。同時に、LLMとのやり取りは、これらの知識とスキルを向上させる機会を提供します。

ChatGPT4

LLM活用においても、最低限のデータリテラシーは必要ですね。
これまでは幅広くかつ深く学習する必要がありましたが、今後は(従来の学習よりも)LLMを利用した実践を重視した方がよいように思います。

幅広くかつ深く身につけておく。。。ではなく、LLMを利用した実践によって深く身につけてゆく。
乱暴に思える「習うより(実践に)慣れろ」の方が、より習うことができ、実践的能力の向上にもつながるのではないか?
まずはこれまでのやり方に(いい意味で)疑問を持たなきゃなぁ。。。


よろしければサポートお願いします!