scikit-learn機械学習④多変量線形回帰:実践編
今回は、複数の変数から値を予測する多変量線形回帰をscikit-learn を使って実装します。
データセットとしてカルフォルニアの住宅の値段に関する california_housing を使います。これは、scikit-learn に付属するもので手軽に使えるので便利です。このデータには、家の値段とその家の属性に関するデータが入っています。
例えば、築年数や部屋数などの属性が含まれており、これら複数の変数から家の値段を予測することを考えます。仮に、築年数と部屋数だけで予測するとすると、多変量線形回帰は次のような式になります。
$$
家の値段 = a \times 築年数 + b \times 部屋数 + c + 誤差
$$
もちろん、家の値段が単純に築年数と部屋数だけで決まるものではないですが、ここでは説明のために変数を二つに絞っています。後で実装する時にはもっと多くの変数を扱います。
この式の要点は、複数の変数によって予測する値が変わってくることです。また、それぞれの変数が値段に与える影響度が a や b によって決まります。つまり、a の値が b よりも比較的に大きい場合は、築年数の方が部屋数よりも値段に与える影響が大きいということです。よって、多変量線形回帰のモデルを構築することで属性それぞれの重要度も見えてきます。
多変量線形回帰のモデルがデータを的確に説明できるようにするためには、予測の誤差がなるべく小さくなるようにする必要があります。よって、上式のパラメータである a, b, c を調節して誤差が小さくなるようにするのが多変量線形回帰による機械学習の目的となります。
それでは、データの読み込みや分析から始めて、実際に多変量線形回帰をscikit-learn を使って実装していきましょう。
この記事が気に入ったらサポートをしてみませんか?