geoRglm
に関するご質問いただいたので,
回答を試みてみる.
> geoRglmにおいてMCMCって何をするために
> 使われてるんですか?
いやはや,これはやはり難問というべきでしょう.少なくとも geoRglm に関
するもっとも重要な質問であることはまちがいありません.
> MCMCは任意の確率分布に従う変数を発生させる方法
> だと思っているのですが、ちがいますか…?
そういうことです.ではここで考えている「任意の確率分布」とは何か? これ
は観測点ごとに与えられる正規分布で,しかもそれに空間相関がある,という
確率分布です.これは Gaussian Random Field (GRF) とよばれ,geoRglm の
姉妹 package である geoR の grf() で生成されます.
ここで格子空間上の格子点上にいる架空の植物の開花をかんがえてみましょう.
格子点 (各点) 独立に確率 0.3 で開花するとしましょう.このとき「見えな
い確率地形」は空間全体どこでも高さ 0.3 のまったいらな平面になっている,
という描像です.開花観測データを glm() にほうりこむと (Intercept) が
log(0.3 / 0.7) = -0.85 ぐらいと推定されるはずです.
開花確率 p = 1 / (1 + exp(-r)) とします.このときの GRF は各点にける
「r の確率分布」あらわしており,どの点でも平均 -0.85 で分散ゼロの正規
分布 (つまり定数 -0.85) になっていると考えます.
つぎに開花確率は全体で平均 0.3 なんだけど,場所ごとにでたらめに決まっ
ている場合を考えてみましょう.このとき GRF は各点独立で平均 -0.85 で分
散がゼロより大きい量になっています.つまり「r の地図」を作るとすごくで
こぼこしてるんだけど,空間平均とると -0.85 になっている,という状況で
す.
開花データにそういう ``overdispersion'' ありそうなときは,一般化線形混
合モデルを推定させる glmmML() などに開花データほうりこめば (Intercept)
が -0.85 だの標準偏差の推定値がこれこれだのとでるはずです.
このときに各点独立のことを GRF の分散共分散行列の共分散項がゼロ (空間
相関がゼロ) というふうに表現します.
さて geoRglm が取り扱うのはこの GRF の空間相関がゼロではない場合,とい
うのを考えています.つまり「r の地図」はでこぼこというより,もっとなめ
らかに変化している場合です……すると開花パターンは目でみてもわかりやす
い開花個体の集中分布になるはずですよね.
geoRglm の MCMC 計算がやっていることは,この空間相関のある GRF,なめら
かな「r の地図」のサンプリングです.データとは無関係な GRF を生成する
ためにも MCMC 計算は必要になります (多変量正規分布の生成なので).しか
しながら,ここでやっていることは「データによくあてはまっていそうな」
GRF を MCMC に生成させている,ということです.
……とりあえず,こういう説明でよろしいでしょうか?
一般化線形混合モデル (GLMM) であつかう場合
(つまり「すごくでこぼこ GRF」)
に関する補足.
過分散 (overdispersion) の例としては
……
たとえば上でいう「植物」個体にたくさんの花がついていると考えてみよう.
どの個体も三割ぐらいの花が咲いているのが overdispersion ナシ,
な状況.
これに対して overdispersion ある状況では,
「咲く個体では一斉に開花,咲かないのはぜんぜんダメ」
という「個体差」が発生している.