その趣旨にはおおむね賛成だけれど,
私自身がこのあたりの議論をアタマの中で整理できていないので,
そのあたりを多少明確にするためにも,
下のようなかんじで返信さしあげてみた.
久保です.たいへん興味ぶかく読ませていただきました.
私自身,この問題についてまだ十分に検討できていないのですが……
粕谷さんの論法で「15% も誤り確率があるから」ということを根拠と
してしまうと,それに対するへりくつ的な反応の一例として,たとえば,
それでは AIC の差が d 以上 (まあこの d は 2 でも何でもよいので
すが) の場合は複雑モデルを採用し,そうでなければパラメーターの
少ない単純モデルを採用すれば,誤り確率を小さくしつつ「よい」モデ
ル (何が「よい」のかはとりあえず未定義) が選べるはずだ……といっ
た用法が肯定されてしまいそうです.実際のところ,AIC をこのように
使っている人もいますが (Burnham & Anderson のカエル本とかでそう
いったことが書かれているから),どうしたものでしょうか.
もうひとつ気になるとしたら,効果の大きさと予測の良さの関係が議論
されていないところでしょうか.AIC を使ったモデル選択では,
・それによって真のモデルが選ばれるわけではない
・与えられたデータだけで,予測の良いモデルを選びたい
といったことが基本となるかと思うのですが,そうだとすると,たとえ
ば単純モデル・複雑モデルのうち「誤り」が選ばれたとしても,推定さ
れた両モデルが同じような予測をするのであれば,どちらもモデルでも
良い……ということかと思います.
この論法でいくとすると,そのときに注目している説明変数が「効果が
ある」のかどうかは,統計学だけの問題ではなく,予測分布の差異がそ
れぞれの分野でどのように解釈されるのか (たとえば,ある生物の成長
速度が 0.01±0.001% 異なるという予測は,その研究において生物学的
に意味のあるちがいなのか) といった議論をしなさい,と指摘しておけ
ばよいのではないでしょうか.つまり,モデル選択の誤り確率の大小を
気にするよりも,単純モデル・複雑モデルそれぞれの効果の大きさとそ
の予測への波及の度合いをちゃんと計算しておきましょう,といったハ
ナシなのかもしれません.