KuboWeb top

更新: 2012-09-24 21:50:27

生態学のデータ解析 - 本/ベイズカエル本

久保の全体的な印象

  • 良い点:
    • なんとなくとっつきやすそうに書いている
    • 生態学的な例題が多いので,生態学研究者にはとくにとっつきやすい
    • ANOVA とか「あ,その方法なら『なんとなく』知ってる」をベイズにおきかえてみたらどうなるか,という例題が多く,このあたりもとっつきやすさ感をだしているように思える
    • 著者独特なセンスのデータ解析をするので,「へー,この問題をこんなふうにあつかうヒトがいるんだ」とアタマを刺激される
  • 悪い点:
    • あまり正しくないことが書かれていたりする
    • 「こんなふうに事前分布きめちゃっていいのか?」と疑問に思える点が多い
      • 著者は主観的な事前分布の使用をしきりにすすめているが,実際のデータ解析では無情報事前分布と階層的な事前分布で問題なく解決できる場合が多い
    • 「ベイズや MCMC をもちださなければうまくあつかえない」といった例題が少ない
      • たとえば階層ベイズモデルについての説明が不十分だと思う
    • 逆に「こんなのベイズ使わなくても……」な例題が多い
    • なにかと問題ありと思える「モデル選択カエル本」 (Burnham & Anderson 2004) に書いてあることなんかを無批判にまる写ししている部分がある
      • AIC による重みづけとか; そもそもベイズ本でしつこく AIC の解説なんかをする必要あるのか?
    • DIC ってそんなにめったやたらに使ってだいじょうぶなんでしょうかねぇ……? (FAQ モデル選択)
    • 本としてのつくりがいまいち
      • 図表の中に見にくいものがある
      • WinBUGS code が見にくい; とくにコメント部分

[輪読会めも]


第 1 章 Introduction 

  • 非ベイズを Null hypothesis significance testingInformation theoretic methods にわけるのはヘン
    • 最尤推定法はべつに information theoretic というわけでもない
      • そして information theoretic といいながらそういうハナシはまったくない
    • 最尤推定して尤度比検定 (これはネイマン-ピアソンなわくぐみの検定) もできる

第 2 章 Critiques of statistical methods 

  • Box 2.1 の例で「仮説検定では帰無仮説を帰ると p 値が変わる」とか言ってるのはヘン
    • ここではそもそもぜんぜん異なるサンプリング方法で得られた状況での統計モデルを比較している
    • 最初の例では 12 個体の子供を選んだら 3 個体がオスだった,というサンプリング方法
    • 次の例では 3 個体のオスがあらわれるまで子供をサンプリングしたら 12 個体でそうなった,というサンプリング方法
    • それぞれのサンプリング方法にあわせてそれぞれ二項分布・負の二項分布をつかったモデルをつかった検定をやればいいのであって,そのあたりを無視してやみくもに P 値を計算してもしょうがない (そもそも検定やる状況でもないと思うが)
  • p.48 あたりに Burnham and Anderson (2002) の命名した Akaike weight なる方法による平均値計算法が紹介されているけれど,これは統計学的に確立した手法ではなく,むやみに使うのは危険だと思う

第 3 章 Analysing averages and frequencies 

  • フクロウがむやみに長生きするという推定結果がでたときに,事前分布をひねくってこれに対処するのはいかにもおかしい
    • そもそも年あたりの死亡確率が一定,というのがヘン
    • 人間など人口動態モデルにように死亡確率が齢とともに上昇する,といった方向でモデルを改善すべきでしょ

第 4 章 How good are the methods 

  • DIC をこんなにお気軽につかってよいのか?
    • WinBUGS サイトの質問こーなーで 質問 13 Why is DIC greyed out? に対して以下のように回答されてたりするわけですが……

DIC is currently greyed out in WinBUGS when one of the stochastic parents is a discrete node. The formal basis for DIC relies on approximate posterior normality for the parameter estimates and requires a plug-in estimate of each stochastic parent - for discrete nodes it is not clear which estimate to use.

  • 章の末尾で掘られている墓穴:
    • 上述のように DIC を算出するためにはパラメーター (平均値とか) の事後分布が「左右対称」である必要がある
    • 第 4 章の途中でポアソン分布モデルに対して DIC をつかったモデル選択じみたことをやっている (上述の WinBUGS サイトの注意がきでは,離散確率分布モデルに対して DIC は算出しないほうがよい,となっているわけだが)
    • しかしながら,章の最後で DIC 算出に使ったポアソン分布モデルの平均値パラメーターの事後分布が対数正規分布であることをいっしょうけんめい示している……対数正規分布は左右非対称 なのに
    • つまり DIC をつかったモデル選択が不可能である,と著者自身が示している
  • さらに,その部分にあるまちがい:
    • 著者は「ポアソン分布の平均値パラメーター λ の事前分布に対数正規分布を仮定したので, λ の事後分布も対数正規分布になるべきだ,と考えているらしい
    • これはまったくのまちがいで λ の事前分布と事後分布が異なっていてもぜんぜん不思議ではないし問題も何もない
    • 事前分布と事後分布の確率分布が同じになるのは,共役事前分布を使った場合など
    • 対数正規分布はポアソン分布の共役事前分布ではない (共役なのはガンマ分布)

第 5 章 Regression and correlation 

  • この章に掲載されているような統計モデリングは邪道っぽいものが多くて,そのままマネするのは危険という気がする
    • そのままマネするのでなければ,まあ参考にはなるけれど
  • 以下ではおもに「データの構造に適合した統計モデリングをしよう」といった観点から批判してみる
  • Box 5.1 (Fig. 5.1): 応答変数の CWD はどうもカウントデータのように見えるので,これは CWD[i] ~ dpois(mean[i]) といったモデリングにすべきだろう
    • さらに mean[i] をうまく定式化していないので「湖の面積が小さくなると CWD がマイナスになる」といった奇怪な予測がでている
      • このモデリングは Box 5.6 (Fig. 5.5) でさらに良くわからないものになる; なぜここでlogistic 曲線など持ちだすのだろう?
    • どうでもいいコトだけど,著者はなぜかしら応答変数とよぶべきところを dependent variable と呼称している; 参照 FAQ GLM
  • Box 5.5 (Fig. 5.4): フクロウの死亡確率なのだが,これは (観測データから集計された) 統計値である死亡率を logit 変換して非線形回帰 (正規分布を仮定) する,というかなりヒドいもの
    • 理想的にはもとの論文に示されている (もしくは原著者がもっている) データを使って死亡確率の推定からやりなおすべきもの
    • それが無理ならもと論文に示されている標本数から bootstrap 的にデータを生成しつつ推定すべきだろう
    • おそらくもとデータは経時 (longitudianal) データなので,そういった構造もきちんと反映すべきだろう
  • Box 5.8: 説明変数の中央化 (centring) のご利益について説明されていて,これ自身は正しい (WinBUGS では説明変数を中央化すると収束・混交が格段によくなる)
    • (これは私ではなく他の参加者が指摘したのだが) ただし交互作用項をふくむモデルの場合は注意が必要だろう
      • (中央化でマイナスになった値) × (中央化でマイナスになった値) が正になったりするから
      • 中央化する前にかけ算しておいて,それから中央化すればよい
  • Box 5.10: ここでも informative prior の使用にこだわっているので,posterior が「ずれてる」とかどうでもよい検討をしなければならないことに
    • なお,ここで示されている DIC によるモデル選択はほとんど無意味
      • 差が小さい
      • そもそもこのモデルで DIC なんぞ使ってよいのか? という検討が必要
  • Box 5.11: 穴の数,というカウントデータを使っていながら無理やり二変量正規分布にこじつけている
    • こういう場合は二変量正規分布の確率変数を潜在変数とするポアソン分布モデルを使えばよい (ごくあたり前の技法)
  • Box 5.12: ゐんばぐすのきわめて「独創的」な使いかたをしている
    • Gibbs sampler としてではなく,単なる乱数発生装置として使っている
    • (これも他の参加者の指摘だが) カエル本著者の昔 (1997) で使った (他の言語で書いた) randomization test のプログラムをそのまま BUGS 言語にしたもの,なのだろう
    • 指数乱数の発生でよけーな (いらない) 手間をかけているけれど,これはただ単に dexp(1/v[i]) とすればいいだけのこと
    • そもそもこんなふうに相関係数をみて「モデルのよさ」みたいなものを評価することなんて,ありえないと思う
    • Table 5.1 でも「ここで DIC つかってだいじょうぶなのか?」といった検討もないまま (たぶんダメだろうと思う) DIC によるモデル選択が

第 6 章 Analysis of variance 

  • (久保は風邪で休み)

第 7 章 Mark-recapture analysis 

  • (この章から Case Studies part に入る)
  • 標識再捕獲の統計モデリングに関しては Box 7.1 のほうが良いと思う
    • 現象そのままのモデリングになっていてわかりやすいから
    • DIC が計算されないのは「こんなモデルで DIC なんか計算するな」という WinBUGS 開発者たちからの message と考えるべきではないか?
  • Box 7.2 と 7.3 の one's trick の問題点:
    • 標本数が多くなると尤度はゼロに近くなる
      • このような状況 (ゼロにちかい値のかけ算をする) で WinBUGS がどれだけ精確に数値計算しているのかよくわからない
      • とにかく標本数が多ければ多いほど状況が悪化する
      • ということで尤度ではなく対数尤度をあつかう zero's trick のほうがマシだろう
    • これって「何の DIC」を計算してるの?
      • dummy な変数まわりの DIC とか計算してだいじょうぶなのか?
      • そもそもこの統計モデルで DIC の計算することに意味あるのか? (とくに発見確率・生残確率が 0.5 から離れている場合)

第 8 章 Effects of marking frogs 

  • (久保は出張で不在)

第 9 章 Population dynamics 

  • (久保は出張で不在)

第 10 章 Subjective priors 

  • この章では subjective prior (主観的事前分布) が重要とのべている
    • この章で使われているようなあからさまな主観的事前分布を回避できる場合も多々ある,それについても議論すべきではないか?
      • たとえば鳥の群集の種ごとの特性は階層ベイズモデルと観測データで何とかなる場合もある,といった言及があってもよい
    • この章であつかわれているような 主観事前分布のこしらえかた が受け入れられるかどうかが重要だろう
      • たとえばアンケートの結果をどう組みあわせれば確率分布である事前分布ができるのか,といったあたり
      • じつはこのあたりも階層ベイズモデル化すべきなのかもしれない --- アンケートの結果などと超パラメーターを組み合わせて事前分布を定義する,といった方法はありえる
  • 途中で紹介されている Crome et al. (1996) は MCMC 計算つかわずに数値積分で事後分布をもとめている,ベイズな生態学論文ではめずらしいもの
  • ベイジアンネットワーク (BNW) にも言及されているけれど ……
    • BNW と主観事前分布の関係がいまいち不明
    • 結果から原因をさぐる,といった BNW 的な使いかたがほとんど紹介されていない

第 11 章 Conclusions