DATE: 2004/12/03 17:25:32 +0900
更新
2004 年 8 月生態学会
自由集会
(データ解析 & 計算生態学)
デ−タ解析で出会う統計的問題
(久保担当ぶんの補足 1)
当日の質疑応答
(2004.09.02; 当日の私の回答が不十分だったので,ここで少し補足説明します)
-
質問:
モデル選択のとき AIC の差が小さかったらどう判断すべきか?
-
答え:
-
モデル選択では各モデルにモデル選択規準
(AIC など; criterion は基準ではなく規準と書くらしい)
を計算して,
その値が一番「良い」ものを選びます.
モデル選択規準は一般に観測されたデータと
各モデルの「複雑さ」から計算されます.
ここでは AIC を例に考えてみましょう.
AIC の値が小さいほど,
「あてはまりの良さ」と「モデルの複雑さ」
のバランスがとれた良いモデル,
と判定されます.
-
このときに,
AIC が一番良い (一番小さい)
モデル MA と二番目に良いモデル MB の
AIC の値の差が小さかった
(MA と MB の AIC の差がかなり近い)
ときどうするか,
という質問について回答を試みます.
-
基本的には単純に AIC が小さい MA を選ぶ,
ということになります.
考えかたとしては,
5% 危険水準の検定において
p = 0.0499
だったら「有意差あり」
と結論してしまう手つづきと同じです.
-
しかしながら,
モデル選択もまた「間違える」可能性があることには
注意しなくてはなりません.
つまりホントは MB のほうが「真のモデル」
(母集団)
に「近い」のに誤って MA を「最良」と判定してしまう
危険性はつねにあります
(標本に何らかの偏りがあった場合など).
-
あるモデル
i
の AIC と
最良 AIC の差を
AIC differences
Δi
と呼びます
(いまの場合だと
Δi
= AICMB - AICMA
).
Burnham & Anderson (2002)
の p.170 で紹介されている,
モンテカルロシミュレイションをもちいた研究では,
理想的な条件においても
「より母集団に近いモデル」
が選択されない可能性が
-
Δi
= 0 - 2
→
substantial
-
Δi
= 4 - 7
→
considerably less
-
Δi
> 10
→
essentially none
である,
としています.
つまり AIC の差が 2 未満の場合は,
「ちょっと怪しいかも」
という可能性があります.
-
このあたりがどうしても気になるようでしたら,
自分のデータと使っているモデルに関して,
モンテカルロシミュレイションなどを使って
「AIC の信頼区間」
というような量を計算してみる必要があると思います.
-
質問:
モデル選択規準はいろいろあるけれど,
何を使えばよいのか?
-
答え:
-
今回の私の話題提供ではモデル選択規準として
Akaike's Information Criterion
(AIC; 赤池の情報量規準)
のみ紹介しました.
これはもっとも良く使われており,
モデル選択という手法になじみのない
参加者にとっても「理解しやすい」
モデル選択規準であるからです.
-
しかし,
モデル選択規準は AIC だけではありません.
Johnson & Omland (2004)
には Adjusted R2,
Small sample unbiased AIC (AICc),
Schwarz Criterion
(あるいは Baysian Information Criterion; BIC)
などが紹介されています
(またモデル選択の定義をひろくするなら,
統計学的検定も特殊なモデル選択のひとつ,
ととらえることができます).
以下に簡単に紹介してみます.
-
Adjusted R2
は最小二乗法によるパラメーター推定を行なった
場合にしか適用できません.
つまり等分散正規分布モデル専用です.
-
AICc
は標本数が少ないときのための AIC です
(AIC の補正).
Burnham & Anderson (2002)
では (サンプル数)/(パラメーター数)
が 40 未満であるなら,
AICc
を使うべきである,
としています.
-
BIC は
-2 × (最大化対数尤度)
+ log(標本数) × (パラメーター数)
と定義されます
(AIC は
-2 × (最大化対数尤度)
+ 2 × (パラメーター数)
).
AIC と BIC の一般的な使い分けに関する原理を
私はまだ理解していません.
しかしベイズ推定によるパラメーター推定
(追記: ここで
パラメーターの事前分布は一様分布である,
と仮定しています)
では,
その趣旨から言って BIC によるモデル選択を行なうべきだ,
と判断して良いでしょう.
-
モデル選択規準は上であげた以外にもあります.
それぞれ,
「何をもって良いモデルとするのか」
という前提が異なります.
-
質問:
今回の例題ではどの処理でもポアソン分布であった.
処理によって分布が異る (例: ポアソン分布 vs 負の二項分布)
でもモデル選択が可能か?
-
答え:
-
原理的には可能です.
なぜならば
パラメトリックなモデル
(ここでいうパラメトリックとは
「正規分布を仮定」
ということではなく,
いくつかのパラメーターを与えて決まる確率分布を
使用した統計モデル,
という意味です)
はどんなものであっても
-
あてはまりの良さ:
最大化対数尤度
-
モデルの複雑さ:
パラメーター数など
を計算・カウントすることができるので,
モデル選択規準を計算して比較することができます.
-
ただし,
異なる確率分布の統計モデルどうしの比較は,
あまり普通ではないので,
事例によってはモンテカルロしミュレイションなどで,
モデル選択の有効性・安全性を確認したほうが良いでしょう.
index に戻る