情報量規準のAICとBICは導出元の式が全然違うのに、AICがゆるくて、BICが厳しいみたいな雑な説明多いやん。ならいっそそっちに合わせて、AICの理屈でBIC説明したり、BICの理屈でAIC説明させたろ。
ってことでまとめてみた。全量書くのはだるいのChatGPTしばいて書かせたのが以下。
AIC と BIC をどう理解するか ― 3つの統一的な見方 ―
統計モデルを選ぶときによく使われる指標に AIC と BIC があります。一般には、AIC は「当てはまり重視」、BIC は「シンプルさ重視」と説明されますが、その理由は必ずしも整理されていません。この記事では、AIC と BIC を次の3つの視点から統一的に理解します。
- 事前分布(分散スケール)
- 逆温度(厳しさ調整)
- 情報量(パラメータの記述コスト)
1. AICとBICの基本
AIC と BIC の定義は次の通りです。
$$ \mathrm{AIC} = -2\log L(\hat\theta) + 2k $$
$$ \mathrm{BIC} = -2\log L(\hat\theta) + k\log n $$
ここで $L(\hat\theta)$ は最尤推定値での尤度、$k$ はパラメータ数、$n$ はデータ数です。どちらも「当てはまりが良いほど有利」「パラメータが多いほど不利」という共通点を持ちますが、複雑さへの罰し方が異なります。
2. AICは「真の分布からのズレ」を測る
AICは、真の分布とモデル分布のズレ(KL距離)を最小化する目的から導かれました。同じデータでパラメータ推定と当てはまり評価を行うと楽観的なバイアスが入るため、その期待値である $2k$ を補正として加えています。AICは「このモデルは真の分布にどれくらい近いか」を測る指標です。
3. BICの立場でAICを見る(分散スケール)
BICはベイズ的にモデルエビデンス
$$ p(D \mid M) = \int p(D \mid \theta)p(\theta)\,d\theta $$
を近似したものです。重要なのは事前分布の広さです。観測値のばらつきが
$$ y \sim \mathcal N(\mu, \sigma_y^2) $$
で、推定パラメータのばらつきが
$$ \hat\theta \sim \mathcal N(\theta, \sigma_\theta^2) $$
となるとき、標準誤差は
$$ \sigma_\theta \propto \frac{\sigma_y}{\sqrt{n}} $$
です。BICは「パラメータは1観測ぶんくらい不確かだ」と考え、事前分布の幅を観測分散スケール(標準偏差$ \sigma_{\theta} $)に置きます。一方、AICのペナルティ $2k$ に対応する事前分布幅は
$$ \sigma_{\text{prior}} \approx 2.53 \times \sigma_{\text{SE}} $$
となり、AICはかなり楽観的な立場を取っていることが分かります。($\sigma_{\text{SE}} = \sigma_{\theta}/\sqrt{n} $なのでnが7以上のときAICのパラメータ事前分布はBICより狭いもの使って計算している事になる)
4. AICの立場でBICを見る(逆温度)
AICのペナルティは一般化して
$$ -2\log L(\hat\theta) + 2\beta k $$
と書けます。$\beta=1$ がAIC、$\beta=\log n/2$ がBICです。これは尤度を
$$ p(y \mid \theta)^\beta $$
のように「冷やす」操作に対応します。$\beta$ が大きいほど当てはまりの良い領域だけを厳しく評価します。つまり、BICはAICを低温化した基準と見なせます。
5. AICの立場でBICを見る(情報量)
AICは「ズレの情報量+予測バイアス補正」を測っています。ここにパラメータの情報量を加えると、精度 $1/\sqrt{n}$ で1パラメータを指定するために必要な情報量は
$$ \frac{1}{2}\log n $$
で、$k$ 個なら $k\log n$ です。AICにこれを足すと
$$ \mathrm{AIC} + k\log n = -2\log L(\hat\theta) + 2k + k\log n $$
となり、$2k$ だけBICより大きいものの、$n$ が大きければほぼ同じ挙動になります。
6. 3つの見方のまとめ
事前分布の観点ではAICは楽観的、BICは慎重です。逆温度の観点ではAICは甘く、BICは厳しい基準です。情報量の観点ではAICはズレの情報量、BICはズレに加えてパラメータの簡潔さも評価します。どの見方でも共通して言えるのは、BICの方が複雑なモデルに厳しいという点です。AICは予測志向、BICは構造同定志向の指標だと理解するのが妥当です。
おわりに
AICとBICは導出の哲学も目的も異なりますが、「どれくらい複雑なモデルを許すか」という一点では同じ違いが現れます。当てはまりを信じるか、構造の単純さを信じるか。その違いを意識して使い分けることが重要です。