scikit-learn機械学習④多変量線形回帰：実践編

2024年2月12日 14:50

今回は、複数の変数から値を予測する多変量線形回帰をscikit-learn を使って実装します。

データセットとしてカルフォルニアの住宅の値段に関する california_housing を使います。これは、scikit-learn に付属するもので手軽に使えるので便利です。このデータには、家の値段とその家の属性に関するデータが入っています。

例えば、築年数や部屋数などの属性が含まれており、これら複数の変数から家の値段を予測することを考えます。仮に、築年数と部屋数だけで予測するとすると、多変量線形回帰は次のような式になります。

$$
家の値段 = a \times 築年数 + b \times 部屋数 + c + 誤差
$$

もちろん、家の値段が単純に築年数と部屋数だけで決まるものではないですが、ここでは説明のために変数を二つに絞っています。後で実装する時にはもっと多くの変数を扱います。

この式の要点は、複数の変数によって予測する値が変わってくることです。また、それぞれの変数が値段に与える影響度が a や b によって決まります。つまり、a の値が b よりも比較的に大きい場合は、築年数の方が部屋数よりも値段に与える影響が大きいということです。よって、多変量線形回帰のモデルを構築することで属性それぞれの重要度も見えてきます。

多変量線形回帰のモデルがデータを的確に説明できるようにするためには、予測の誤差がなるべく小さくなるようにする必要があります。よって、上式のパラメータである a, b, c を調節して誤差が小さくなるようにするのが多変量線形回帰による機械学習の目的となります。

それでは、データの読み込みや分析から始めて、実際に多変量線形回帰をscikit-learn を使って実装していきましょう。

ここから先は

9,158字 / 26画像

キカベン・読み放題

¥1,000 / 月

初月無料

人工知能、機械学習、ディープラーニング関連の用語説明、研究論文の概要、プログラミングの具体例などの読み応えのある新しい記事が月に４−５本ほど追加されます。また、気になるAIニュースや日常の雑観などは随時公開しています。

メンバー限定の会員証が発行されます
活動期間に応じたバッジを表示
メンバー限定掲示板を閲覧できます
メンバー特典記事を閲覧できます
メンバー特典マガジンを閲覧できます

このメンバーシップの詳細

ログイン

この記事が気に入ったらサポートをしてみませんか？