AICとBICについてChatGPTしばいてまとめさせた

情報量規準のAICとBICは導出元の式が全然違うのに、AICがゆるくて、BICが厳しいみたいな雑な説明多いやん。ならいっそそっちに合わせて、AICの理屈でBIC説明したり、BICの理屈でAIC説明させたろ。
ってことでまとめてみた。全量書くのはだるいのChatGPTしばいて書かせたのが以下。

AIC と BIC をどう理解するか ― 3つの統一的な見方 ―

統計モデルを選ぶときによく使われる指標に AIC と BIC があります。一般には、AIC は「当てはまり重視」、BIC は「シンプルさ重視」と説明されますが、その理由は必ずしも整理されていません。この記事では、AIC と BIC を次の3つの視点から統一的に理解します。

事前分布（分散スケール）
逆温度（厳しさ調整）
情報量（パラメータの記述コスト）

1. AICとBICの基本

AIC と BIC の定義は次の通りです。

$$ \mathrm{AIC} = -2\log L(\hat\theta) + 2k $$

$$ \mathrm{BIC} = -2\log L(\hat\theta) + k\log n $$

ここで $L(\hat\theta)$ は最尤推定値での尤度、$k$ はパラメータ数、$n$ はデータ数です。どちらも「当てはまりが良いほど有利」「パラメータが多いほど不利」という共通点を持ちますが、複雑さへの罰し方が異なります。

2. AICは「真の分布からのズレ」を測る

AICは、真の分布とモデル分布のズレ（KL距離）を最小化する目的から導かれました。同じデータでパラメータ推定と当てはまり評価を行うと楽観的なバイアスが入るため、その期待値である $2k$ を補正として加えています。AICは「このモデルは真の分布にどれくらい近いか」を測る指標です。

3. BICの立場でAICを見る（分散スケール）

BICはベイズ的にモデルエビデンス

$$ p(D \mid M) = \int p(D \mid \theta)p(\theta)\,d\theta $$

を近似したものです。重要なのは事前分布の広さです。観測値のばらつきが

$$ y \sim \mathcal N(\mu, \sigma_y^2) $$

で、推定パラメータのばらつきが

$$ \hat\theta \sim \mathcal N(\theta, \sigma_\theta^2) $$

となるとき、標準誤差は

$$ \sigma_\theta \propto \frac{\sigma_y}{\sqrt{n}} $$

です。BICは「パラメータは1観測ぶんくらい不確かだ」と考え、事前分布の幅を観測分散スケール(標準偏差$ \sigma_{\theta} $)に置きます。一方、AICのペナルティ $2k$ に対応する事前分布幅は

$$ \sigma_{\text{prior}} \approx 2.53 \times \sigma_{\text{SE}} $$

となり、AICはかなり楽観的な立場を取っていることが分かります。($\sigma_{\text{SE}}　= \sigma_{\theta}/\sqrt{n} $なのでnが7以上のときAICのパラメータ事前分布はBICより狭いもの使って計算している事になる)

4. AICの立場でBICを見る（逆温度）

AICのペナルティは一般化して

$$ -2\log L(\hat\theta) + 2\beta k $$

と書けます。$\beta=1$ がAIC、$\beta=\log n/2$ がBICです。これは尤度を

$$ p(y \mid \theta)^\beta $$

のように「冷やす」操作に対応します。$\beta$ が大きいほど当てはまりの良い領域だけを厳しく評価します。つまり、BICはAICを低温化した基準と見なせます。

5. AICの立場でBICを見る（情報量）

AICは「ズレの情報量＋予測バイアス補正」を測っています。ここにパラメータの情報量を加えると、精度 $1/\sqrt{n}$ で1パラメータを指定するために必要な情報量は

$$ \frac{1}{2}\log n $$

で、$k$ 個なら $k\log n$ です。AICにこれを足すと

$$ \mathrm{AIC} + k\log n = -2\log L(\hat\theta) + 2k + k\log n $$

となり、$2k$ だけBICより大きいものの、$n$ が大きければほぼ同じ挙動になります。

6. 3つの見方のまとめ

事前分布の観点ではAICは楽観的、BICは慎重です。逆温度の観点ではAICは甘く、BICは厳しい基準です。情報量の観点ではAICはズレの情報量、BICはズレに加えてパラメータの簡潔さも評価します。どの見方でも共通して言えるのは、BICの方が複雑なモデルに厳しいという点です。AICは予測志向、BICは構造同定志向の指標だと理解するのが妥当です。

おわりに

AICとBICは導出の哲学も目的も異なりますが、「どれくらい複雑なモデルを許すか」という一点では同じ違いが現れます。当てはまりを信じるか、構造の単純さを信じるか。その違いを意識して使い分けることが重要です。