見出し画像

時系列データをpython【#2.1】数理モデルとは

いろいろ端折って進めかけていたのですが、意味もわからずに時系列データの処理をしても何も身につかないなぁと思いました。なので、一時脱線というか振り出しに戻ります。
以下の本から時系列データの部分を勉強しましたので、少しここに書こうと思います。※アフェリエイトはしていません。でもこの本はすごくいい本なので、これで知識を増やす、勉強するのはいいことだと思います。(アフェリエイトではなく、自分の一生ものの能力をつけるために約3000円でこの本を買って、月給3000円上げようというモチベーションです。)

第1章 データ分析と数理モデル

データ分析とは、対象から情報を取得して、メカニズムを理解しようとすること。分離可能な少ない種類の要素の集まりとして理解する方針と、複雑なものは複雑なまま分析してしまおうという方針の2種類があるそうです。
(この本には記載のない、私の勝手な考え)最近は、AIの話題でデータセントリックAIという言葉が出ています。AIの話題なので分析の話題からは少しずれるのですが、複雑なものを複雑なまま分析する方針も可能ですが、結局は扱いやすいデータにしたほうがいいよねっていう考えが主流になると思います。仕方なく複雑なまま扱わないといけないときはしょうがないですが、継続的分析したり、モニタリングが必要になる場合は、扱いやすいデータにする=データセントリックにしていきたいよね。ってなると思います。

数理モデルとは、「数学的な手段を用いて記述された、対象のデータ生成ルールを模倣したものです。」とのことです。なので、モデル化した時と、モデルを使う時期が違うとうまく模倣できないときもあるってことですね。たとえば、スーパーの売り上げ予測モデルをコロナ禍前に作った場合、コロナ禍中にはうまく模倣できずに、予測を外すかもしれませんね。

第2章 数理モデルの構成要素・種類

数理モデル = 数理構造 + パラメータ
(私の勝手な考え)数理構造で大枠を決めて、パラメータで微調整する。なので数理構造を間違えるとパラメータでは挽回できない。

理想指向型モデリング → データがどういうメカニズムで生成されているかを理解する
応用志向型モデリング → 手元にあるデータをもとに、未知のデータに対して予測・制御をおこなったり、新しいデータを生成して利用する
時系列データを扱うときには、データのメカニズムを先に理解したいと思っています。そのあとに予測に使えるなら使ってみたいと思っています。どちらも勉強していこうと思っています。

第7章 時系列モデル

さまざまな時系列データ…この本に載っているグラフの例をスキャンしてアップロードするのは、あんまりマナーがよくないと思いますので、ChatGPTも使わずgoogle colabの生成AIを使って表示します。この本では6つ例がありますが、ここでは2つのとどめておきます(GoogleColabに頼りました)。

航空機乗客数をGoogle colabの生成AIに書いてもらった例

↑のグラフの何がすごいかというと、この本とほぼ同じグラフになっているところです。”ほぼ”の理由は、本のデータは紙を見るしかできないので、見た目は一緒なのですが、正確なことが言えないからです。

ドイツ株価指数

時系列データはトレンド+周期成分+ノイズでできているようです。
注意;時間を説明変数にして普通の統計検定をおこなっていはいけないようです。時系列データの隣接する点の間に関係があったり、周期的な変動が含まれているからだそうです。

次の節から、気になっていたARIMAモデルのあたりに行くので、今回はこれくらいにしておきます。この本に感謝。著者に感謝。

この記事が気に入ったらサポートをしてみませんか?