見出し画像

データの推定 内挿と外挿

実験データの処理をしていると、測定したデータ以外の値を推定したい場合があります。例えば、時間と共に変化する現象を考えます。イメージしやすいように、ある国の人口の推移のグラフがあるとします。

ここでは、国の人口のデータは年単位(その年の12月)にしかないとします。このとき、6月の人口を知りたい時にはどうしますか?。普通に考えれば、前年のデータとその年のデータの平均が6月のデータに近そうなことは分かります。これが内挿ないそうという考え方です。3月や9月の人口が知りたければ、その年の人口増加率を比例配分すれば概算値が求められます。このようにして、データがない箇所での未知のデータを推定できます。

それでは、今年の人口がわかっていて、来年の人口を予測することはできるでしょうか?。こんな時に使われるのが、外挿がいそうという方法です。タイトル画の左のグラフの様に、それまでの人口が右肩上がりで推移している場合、人口が増加すると考えるのはおかしなことではありません。こんな場合は、直前の人口増加率を考慮して、その直線を延長して推定値(予測値)を計算します。

内挿と外挿は、いずれも既知のデータから未知の範囲・領域のデータを推定する統計学的な手法を指します。内挿は、英語では interpolationと言って、ある既知の数値データ列を基にして、そのデータ列の各区間の”範囲内”を埋める数値を求めること です。また外挿は、英語では extrapolationと言い、ある既知の数値データを基にして、そのデータの”範囲の外側”で予想される数値を求めることです。ちなみに、inter-は中間を表わす接頭辞で、extraーは外側を表わす接頭辞です。

内挿は、データ列が密ならば、その推定値は大きく外れることはありません。しかし、外挿については注意が必要です。人口の時間変化を例にとりますが、これまで人口が増加し続けていたとしても、将来も必ず増加するとは限りません。日本は既に人口減少のモードに入っていますが、平成20年(西暦2008年)をピークに人口減少を続けています。また、人口がこれまで爆発的に増え続けていた中国の人口も、昨年あたりでピークアウトしたようです。

このように、将来の推定(外挿)はとても難しいのです。誰にも未来は見えません。

この記事が気に入ったらサポートをしてみませんか?