見出し画像

10^500 10^-35

 データを用いた意思決定の起源は、ピラミッドや神殿などのために、国家がどのくらい労働力、食料、資材などを保有しているかを正確に見積もった上でプロジェクトを実行する必要があったためとか。
 時代が進み、生命保険や年金制度などの仕組みづくりに出生率の調査のデータが活用されてきたらしい。
 20世紀中ごろには、統計学の数理的な理論が体系化され、画一的なものを大量生産される際の品質管理において、製品の一部を抜き取る検査で製品全体の傾向を把握して品質の把握を行う管理方式が確立されたそうです。
 その後、コンピュータのデータ保存能力や計算能力の飛躍的な向上、ネットワークやセンサデバイスの進化によるデータ収集の低コスト化、計算アルゴリズムの進化といった、データ活用の環境が急速に改善され、試行錯誤しながらデータを多角的な面で解析したり、複雑な計算式などを組んで数値指標を産出することも自由にできるようになってきています。
 しかしながら、これらを使った具多的なサービスの構築やビジネス活用には結びついていないのが現状のようです。
 統計解析を少しかじってきたので、少子高齢化社会を迎えるにあたり、誰かに役立つ情報を提供できればと思います。

 データがあり、解析が行われていて、解説の本が出版され、ホームページでも情報が豊富な気象に関するデータを取り扱ってみます。
 気象庁から気温に関する日別平均気温のデータが収集します。
 特徴を可視化するために、5万件程のデータをそのままグラフにしてみますが、特徴は読み取りづらいです。温暖化しているという情報から、近似曲線の線形回帰を追加し、その回帰計算からは 100年当り東京は 2.96度温度が上昇していることになります。
 なお、Excelは1900年より前の日付は取り扱いができないので、文字列として表記しますが、データとしては数値で年、月、日分けて扱うほうが便利だと思います。

 価値の高いデータ分析を行うには、分析の戦略段階での全体構想を正しく実施していく必要があり、データ分析で行うデータの可視化は、データの特徴を切り取ることで、データ分析そのものと不可分な作業です。

 データ分析だと、金融関係と思い立ちますが、市場データを使いマーケット予測AIを構築するのは、再現性に乏しく、低い再現性のわりに機械学習が必要とするデータが数が少なく、ランダムウォークするため、難しいといわれています。これらを乗り越えるために、秒分単位のデータを用いた超短期予測モデルが作られていますが、その利用は限定されています。日次、週次、月次の中長期モデルも作られていますが、マーケット構造が変化する出来事があるたびにメンテナンスが必要のようです。また、複数のデータがどのような関係にあるかを調べる状況把握型モデルは、局面の定性的な判断補助に使われているようです。このような状況なので、市場のデータ分析はなかなかてこずる分野だと感じます。

この記事が気に入ったらサポートをしてみませんか?