【重回帰分析とは】計算式やアルゴリズムの仕組みをわかりやすく解説

重回帰分析の意味や使い方、相関係数（偏回帰係数）や決定係数などについて解説します。

重回帰分析とは

重回帰分析（Multiple Linear Regression）は、2つ以上の特徴量（x₁, x₂, …）から1つのターゲット変数（y）を予測するモデルです。以下ページで解説した単回帰分析が「1対1の関係」だったのに対し、重回帰分析は「多対1の関係」を扱います。

数学的には以下の式で表されます。

予測値を計算する式：$$ \hat{y} = a_1x_1 + a_2x_2 + \dots + a_kx_k + b $$
実測値の関係：$$ y = a_1x_1 + a_2x_2 + \dots + a_kx_k + b + \varepsilon $$

重回帰分析では、各特徴量がどれだけ視聴者数に影響しているかを「回帰係数」で定量的に評価できます。

今回は、VTuberの同時視聴者数予測を例に解説します。

以下のように「登録者数」「Xフォロワー数」「平均配信時間」の3つを特徴量とし、視聴者数（y）を目的変数にします。

配信回	登録者数 $x_1$	Xフォロワー数 $x_2$	平均配信時間（分）$x_3$	視聴者数（y）
兎野ぺこり#1	150,000	80,000	120	4,200
港あくび#1	120,000	65,000	90	3,300
星空スバリ#1	100,000	50,000	110	2,700
修士みより#1	80,000	40,000	60	1,800

① 各特徴量を軸にした3次元空間にデータをプロットします。

② この空間内で、誤差が最小になるような「平面（または高次元超平面）」を探します。これが回帰平面です。

③ 各特徴量の回帰係数$a_i$と切片$b$を求めると、予測式が完成します。

重回帰分析でも、最小二乗法で係数と切片を求めます。
単回帰分析では傾きと切片の2変数でしたが、重回帰では複数の係数があり、行列計算でまとめて計算します。

式の形：$ \boldsymbol{y} = \boldsymbol{X}\boldsymbol{a} + b $
]

最小二乗解：$\boldsymbol{a} = (\boldsymbol{X}^\mathsf{T} \boldsymbol{X})^{-1} \boldsymbol{X}^\mathsf{T} \boldsymbol{y} $

重回帰分析では、特徴量同士が強く相関しすぎる（多重共線性）と、係数の推定が不安定になり、解釈が難しくなります。
このため、事前に相関係数やVIF（Variance Inflation Factor）で確認します。

決定係数 $R^2$ は単回帰と同じく、モデルの説明力を評価します。
複数の特徴量を使うと説明力が上がることもありますが、不要な特徴量を入れると過学習のリスクも増します。
そのため調整済み決定係数（Adjusted $R^2$）も使います。

$\text{Adjusted } R^2 = 1 – (1 – R^2) \frac{n-1}{n-k-1}$
$n$：データ数、$k$：特徴量数

重回帰分析でも、学習用とテスト用データを分けるのが基本です。
性能指標はMAE、MSE、RMSE、(R^2)など。過学習を防ぐには特徴量選択や正則化（Ridge, Lasso）も有効です。