データ解析こんさるメイルかきにかまけてしまった.
モデル選択
についての初歩的な説明.
データ解析するヒトというのは,
とにかく「手元にあるデータへのあてはまり」
ばかりを重視してしまうわけだが
……
自分自身もときどきはそうなっているかも.
統計モデルの利用に関してはこれまでは推定ばかりが重視
される傾向にありました.その根底にあるのは,なんでもい
いから,とにかく手元のデータにあてはまりが良いモデルを
探し出せばそれでよい,という発想です.統計ユーザーのほ
とんどはこう考えているのではないでしょうか.
これに対して,モデル選択は予測を重視する発想にもとづい
ています.予測とは,
同じサンプリングをやったときに,つぎに出現するデータ
へのあてはまりが良いデータを作る
ということです.このときの制約条件としては,「たまたま
手元にある」観測データにもとづいて,予測のためにモデル
を作りなさい……というややしんどいものです.
したがって,モデル選択の目的は真のモデルを構築すること
ではありません.真のモデルと同等のモデルを作るためには
無限のデータが必要になります.手元にある限定的な情報だ
けをくみあわせて,予測のための統計モデルを作るので,こ
れは真のモデルより簡単なものになります.
この難しいモデル選択を簡便にすませてしまおうというのが
AIC や DIC といったモデル選択規準の利用です.しかし,ど
ちらも数学的な前提や導出はややこしく,あまり簡単ではあり
ません.とくに DIC は「DIC はこのようにおかしい」といった
論文が今でもいろいろと公表されています.
できあいのモデル選択基準を使わないモデル選択の方法はいろ
いろあります.交叉検証法 (cross validation) などはその代
表といって良いでしょう.