なぜかこの季節にデータ解析こんさるメイルかき.
まあ,
こういうのは季節性 (冬季が繁忙期)
なんだけど,
論文投稿・修正時期には季節性があまりないんだよね
……
本日は「パラメーターの軽重」を調べるために,
Akaike weight (うげー) にもとづく RIV とやらがどーのこーのというもの
(あとで教えていただいたところによると,
RIV は Relative importance of variables だそーで,
例のアレなかんぢのモデル選択カエル本が発生源).
RIV というのは知らなかったので,いろいろ調べてみたのですが,
あまり情報ありませんね.reduction in variance の略でしょうか.
前後の文脈から想像しますに,Akaike weight を計算して,パラメ
ーターごとのスコアをだすような方式なのでしょう.Akaike weight
関連が良くないのは,それを正当化するような理論が何もないため
です.そもそもこの考えかたは何かきちんとした論文になっている
わけではなく,赤池さんがずっと昔の論文の discussion で「ちょっ
とこういうのを考えてみた」と書いてることを,モデル選択本 (カ
エル表紙の) の著者がオーソライズされたものとして広めたもので
す.したがって,生態学まわりでしか使用されていません.
とりあえず AIC を使ってモデル選択する方針をとるのであれば,
AIC 最良モデルについてまず解釈し,さらにその最良モデルがそ
れほどヘンなものでないかどうかを 2 番手・3 番手あたりと比較
すればよいかと思います (これはどちらかというと,定性的な議
論になるでしょう).
そもそも「パラメーターの軽重」というのは,統計学の問題という
より,推定結果の生態学的な解釈に関する問題です.簡単に解釈で
きる例としては,無処理・処理 A・処理 B というのがあったときに,
処理 A と B ではどちらの影響が大きいかを調べる場合です.これは
説明変数が因子型の場合には,パラメーターの推定値の大小やその
推定誤差の大きさをみれば何か議論できるということです.
しかし,今回のように多くの説明変数が因子型ではなく数量型で
ある場合には,もう少し考える必要があります (そして「正解」は
一義的に決まりません).まず説明変数ごとに範囲が異なるので,
推定値の大小だけでは平均値に与える影響はわかりません.この
あたりをごまかす方法のひとつは,説明変数の標準化 (standardization)
というやつで,ある説明変数 Xi を (Xi - Xの平均) / (Xの標準偏差)
と変換してからパラメーター推定をする方式です.とりあえず,
このようにして推定されたパラメーターの大小で議論しても問題
ないかもしれません.いわゆる感度解析の一種と考えてよいで
しょう.
しかし,説明変数の分布がすごく偏っていたり,因子型・数量型
の説明変数について同時に議論する必要があったり,あるいは,
交互作用項などという面倒なものが混入している場合にはいろい
ろと検討する必要があると思います.