更新: 2012-09-24 21:50:27
生態学のデータ解析 - ランダム効果とは?
- リンク
- GLMM 参照, R 関連の参照
- 自由集会 2006 「個体差」のモデリング
Crawley 先生 が書いた生態学者むけの統計学と R 入門書
Michael J. Cawley. 2005. Statistics: An Introduction using R. Wiley (URL)
の p.178 あたりに random effects の丁寧な説明があったので久保が 勝手ながら翻訳してみます.この random effects は (たとえば) logistic 回帰や Poisson 回帰の overdispersion の原因となったり,あるいは正規分布 + 線形モデルなら大きすぎる「測定誤差」をもたらすものです.
てきとーなる訳者・久保からいくつか注意あるのですが……
- そもそも久保訳文がよくわからない・意味不明ぎみなところがありますので,参考程度にしてください
- 気になるかたは原文を参照してください
- しかし (また久保私見ですが) Crawley 先生の解説もカタよってるような気も……
- random effects は日本語では「変量効果」と言われていますが (これに対して fixed effects は「母数効果」) ここではその訳語は使いません
- a population of effects を「効果のばらつきの確率分布 (母集団)」などと訳してみた……けど正しいかどうかよくわからない
- これって Bayes 推定ふうに言えば事前分布そのものだよね
- しかし訳してみてわかったんだけど,Crawley 先生の解説って意外と難解なところもあるね
- 粕谷さんから Yes/No 問答の三つめのよい訳をいただいたので使わせてもらう……ついでにこのあたりの久保訳が全部まちがいだとわかったのであわてて修正
- 兼清道雄さん の まぜろぐ も参照
- 引用:
- ある因子を固定効果として解釈するということは,その因子に対して有限個の水準を想定し,さらにそれらは研究で評価したい全ての水準を含んでいると考えることになる
- ある因子を変量効果として解釈するということは,その因子に対して無限個の水準(水準の母集団)を想定し,研究で実際に検討する水準は母集団からの標本であると考えることになる
- 引用:
(以下は Crawley 2005 の訳文)
もくじ
- ランダム効果とネストされた実験計画 (Random Effects and Nested Designs)
- 固定効果それともランダム効果? (Fixed or Random Effects?)
- 「擬似反復」を除く (Removing the Pseudoreplication)
- 縦断的データの解析 (Analysis of Longitudinal Data)
ランダム効果とネストされた実験計画 (Random Effects and Nested Designs)
混合効果モデル (mixed effects models) がそう呼ばれている理由はその説明変数 に固定効果 (fixed effects) とランダム効果 (random effects) がまざっているからだ. これらはそれぞれ応答変数 y に対して
- 固定効果 (fixed effects): y の平均にだけ影響およぼす (久保注: 正確には中央値に影響をおよぼす; その結果として平均値なども変わる)
- ランダム効果 (random effects): y の分散 (ばらつき) にだけ影響およぼす (久保注: となるとこちらは中央値は変えないけどばらつきは変える,となるのかな?)
ランダム効果は「効果のばらつきあらわす確率分布 (母集団; a population of effects)」 に由来しているものだと考えられるべきだ: こういった「効果のばらつきの確率分布」はここで新しく追加した仮定である. われわれは「ランダム効果の予測」 (prediction of random effects) とは言うけれど「ランダム効果の推定」とはあまり言わない; つまり 観測データから固定効果は推定 (estimate) するんだけど, ランダム効果のもとになる「効果のばらつきの確率分布」に関しては 予測してやろうと考えているのである (久保注: つまり「random effects は 1.3579 でした」 といった推定値で表現されず, 「効果のばらつきの確率分布」として表現されるということ). ランダム効果は応答変数の分散-共分散構造を決定している. 固定効果はたいてい実験するヒトたちが指定している実験処理の効果なんだけど, これに対して (これまたカテゴリカルあるいは連続変数である) ランダム効果は 「実験者がその値そのものには興味がないこと多いんだけど, それらがばらつきにおよぼす影響にだけ興味がある」 というところが違っている.
いくつかの説明変数たちは時間ごと・場所ごとのグループ (grouping) を表している (久保注: データのとられた場所や場所が説明変数に含まれてる場合など, ということだろう). 同じ (久保注: 同じ時間や場所の) グループ内でランダム効果は おたがい似ている部分があるだろうし, だとしたらこのことは「誤差の独立性」なる 統計学の基本仮定のひとつをアヤうくするものである. 混合モデルはこの「独立ではない誤差」をとりあつかうものであり, それはデータのグループ化によってもちこまれた共分散構造をモデル化している. こういったランダム効果いりモデルのご利益のひとつは, 要因 (久保注: 説明変数のこと) ふやすと減ってしまう「自由度」を節約できてしまうことにある. (久保注: 時間ごと・場所ごとの) 要因あれやこれやをくみこんで 平均それぞれを変えていくんじゃなくて, ランダム効果モデルではこの「平均の確率分布」を推定するのである (これはふつー, 全体の平均を中心として時間ごと・場所ごとの平均のばらつきをあらわす 標準偏差としてあらわされる). 混合モデルがとくに便利に使えるのは, 時間的な擬似反復 (反復測定) だの空間的な擬似反復 (例えばネストされた実験計画とか 分割区画 (split-plot) 実験) がある場合だ. 混合モデルは以下のような状況で使える:
- 近くの個体と空間的自己相関ある場合
- 同じ個体で反復測定してるんで時間的自己相関ある場合
- 野外実験の (久保注: 同じ処理の) ブロック間で平均値がちがっている場合
- 反復測定する医療試験で被験者の個体差を考慮しなければならぬ場合
つまりかんじんなのは, (久保注: たとえば個体ごと) それぞれのパラメーターを推定することで 貴重な自由度をむだづかいすることだけは絶対にイヤ, ということだ (久保注: 推定すべきパラメーターが増えると自由度はどんどん減る). これに対して, とってきた測定値は全部つかいたいんだけど, これには擬似反復があったりするので, 次のふたつは考慮してみたい:
- 相関構造 (correlation structure): 相関 (correlation) を使って時間ごと・場所ごとに決まるグループ内でおたがい似ていることをモデル化する
- 分散関数 (variance function): 加重 (weights) を使ってグループごとにちがうばらつきの大きさをモデル化する
固定効果それともランダム効果? (Fixed or Random Effects?)
あるカテゴリカルな (名義変数の) 説明変数が固定効果なのかランダム効果なのか, このあたりはたくさん経験をつまないとなかなかわからないものだ. ここでそのガイドラインをいくつか示してみよう:
- 効果の大きさ (effect sizes) に興味あるんだろうか?
Yes なら固定効果
- その要因の水準ってのが「効果のばらつきの確率分布」に由来するものだと考えるのは妥当だろうか?
Yes ならランダム効果だね (久保注: 説明変数が {場所1, 場所2, ...}, {観測日1, 観測日2, ...} といったような状況)
- 要因の水準数が十分多くて分散を推定したいのか?
No ならその要因は固定効果
- 要因の水準は解釈可能なほど情報ある (informative) か?
Yes だったら固定効果
- 要因の水準がたんなる数字であらわされてるんだけど?
Yes ならランダム効果 (久保注: 説明変数が {場所1, 場所2, ...}, {観測日1, 観測日2, ...} といったような状況)
- 「効果のばらつきの確率分布」を知る (making inferences) ことにかなり興味があって,そのばらつきをデータ全体を代表してるようなランダムサンプルでやりたいんだけど?
Yes ならランダム効果だね
- 階層構造あるんだけど?
Yes の場合,そのデータが実験から得られたのか観察から得られたのか教えてくれ
- 階層構造は実験処理の水準間であるんだけど?
Yes なら分割区画法 (p.176) の固定効果だね
- 階層性のある観察研究なんですけど?
Yes ならそれはランダム効果で,variance components analysis (p.181) を使うことになるんじゃないかな
- モデルが固定効果とランダム効果をどちらも含んでいるなら混合モデルを使いなさい
- モデルの構造が線形なら R の
lme
使いなさい (訳注: 現在なら lmer()) - そうでなければ,現象をあらわす数式をきめて非線形混合モデル用の
nlme
使いなさい
「擬似反復」を除く (Removing the Pseudoreplication)
データセットの中の擬似反復 (pseudoreplication) への乱暴な対処方法はそれを消してしまうことだ. 空間的擬似反復は平均をとれば消せるし, 時間的擬似反復は観測時間ごとに ANOVA をやればいい. こういった方式の大きなヨワみは次のふたつである:
- 処理の効果が応答の平均値の時間変化に関係しているような問題を検討できない (例. 成長速度の違いがもたらす経時変化)
- それぞれの場所・時間ごとに解析してしまうと,これらは独立ではないので,あとでどうやって組み合わせればいいのかわからない場合がある
縦断的データの解析 (Analysis of Longitudinal Data)
(久保注: ここは医療データ解析を念頭においたハナシになっているみたいだ)
縦断的データ (longitudinal data) の特徴はそれが時間にそって同じ個体から何度も何度も 反復して測定された, ということである. もしこのデータを何も考えずに回帰したり分散分析したりすると, それってのは時間的な擬似反復ということになる. ある対象個体から得られた観測データのセットは正の相関があるものだし, 解析をやるときにはこの正の相関を考慮する必要がある. そうしないときには横断的 (cross-sectional) 研究というテもあって, これは (久保注: 少数個体を追跡調査するのではなくたくさんの個体について) 全データをある一時点で集めてしまって, 各個体のその時点のデータだけをあつかうというものだ. 縦断的データ解析の利点は齢効果 (age effects) と コホート効果 (cohort effects) を分離できることにある; 横断的研究ではこのふたつはわかちがたく交絡してしまってる (confounded) ものだ. 年のあいだの違いが 創出年の異なるコホートが経験する条件の違いになってしまっている. このへんはことさらに重要であり, というのも齢が同じだけど別のコホートに属している 個体たちはそれぞれが異なっていると期待されるからだ. 縦断的研究における両極端をあげておく:
- たくさんの個体から数回だけデータをとる
- 少数の個体からものすごくたくさんのデータをとる
最初の場合だと, 個体間のちがいを推定するような精密なモデルをあてはめるのは難しいけれど, 処理の効果は効率よく検定できるだろう. 第二の場合だと, 個体の時間変化のちがいはわかるだろうけれど, 処理の効果のゆーい性を検定する検定力がたりず, とくに個体間の差が大きいときにはひどいものになるだろう. 最初の場合では相関構造の推定にはほとんど注意がはらわれず, これに対して第二の場合だと共分散モデルが重視されている. (久保注: 縦断的研究の) 目的としては:
- ある過程の「平均的な時間変化」を推定すること
- その過程の速度の個体間のちがいを特徴づけること
- 上のふたつを左右している要因 (これには (ありそうな) コホート効果も含まれる) を特定すること
ここでの応答変数は個体ごとの観測値ではなく, 対象個体の観測値の配列 (sequence of measurements) である. こうすることで齢の効果と年の効果を識別できるようになるのである (詳しくは Diggle et al. (1994) を見よ).