更新: 2012-09-24 21:50:27
生態学のデータ解析 - 岩波本メモ
- 2008 年 4 月時点での 本/データ解析のための統計モデリング入門 のメモです
1. 書名
- データ解析のための統計モデリング入門
- (副題) 一般化線形モデル・階層ベイズモデル・MCMC
2. 趣旨 (2008-04-05 時点)
本書では生態学・環境科学であつかうような観測データを例題とする統計モデリングの入門的な内容をあつかう.おそらく「確率と情報の科学」シリーズの中でもっとも初歩的な内容となる.しかし後述するように,初歩的な内容の統計モデリングに関する文献はほとんどない.このような内容の統計学教科書は現在必要とされている統計学書籍の一冊かもしれない.
生態学・環境科学の野外調査によって得られるデータの統計学的解析は (もっと統制された環境で実施される) 実験科学のそれとは異なる側面がある.実験科学におけるデータ解析ではある要因の「効果あり・なし」だけを調べる統計学的検定が重視されてきた.統計学的検定は計算機ソフトウェアの開発が容易であり,古くから普及していたので,現在でも多くの統計学教科書では「検定」に焦点をあてた構成となっている.
これに対して野外観測データでは,観測されたさまざまな現象 (パターン) をうまく説明できるような (複数の要因で構成されうる) 統計モデルは何か,可能な統計モデルが多数存在しえたときにどれが「最良」と考えるべきなのかといった (検定というよりも) モデル選択的な側面が強調される.モデル選択のためには「現象をモデル化」するといった統計モデリング的な思考法が必要となる.これは従来の統計学教育ではあまり重視されていなかった.
統計モデリングは新しい考えかたではなく,発祥時点から統計学の中核的な概念である.むろん検定を中心とするデータ解析もとうぜんながら統計モデルにもとづくものではある.しかしながら伝統的な教科書ではこの点を強調していない.これらにおいては統計モデルとしては正規分布を使うものを偏重し,その検定統計量の導出に紙数がさかれている.また検定ばかりを極端に重視する立場の教科書においては,順位統計量などいわゆるノンパラメトリック検定の利点が (やや誇大に) 強調される.これは統計モデルを考慮せず,検定統計量の確率分布さえ計算できればよいとする立場である.多くの「多変量解析」本も同じ方向性である.
しかしながらこのようなアプローチは「観測データから多くの情報をひきだす」ことにねらいをあてている現代の生態学・環境科学には不充分なものである.そこで統計学の原点にかえり,観測データをうまく説明できるような統計モデリングを構築し観測データの構造・特徴との対応づける技法とその考えかたに関する入門書が必要になりつつある.
そこで本書は以下のような順でデータ解析初学者を対象とする統計モデリング入門をめざす.
- 一般化線形モデル (GLM) の導入によって「何でもかんでも正規分布モデル」「何でもかんでも検定」「何でもかんでも割算してしまう統計解析」からの脱出
- 一般化線形混合モデル (GLMM) の導入によって「個体差」「場所差」といった観測者には直接測定困難な要因を統計モデルにくみこむ現代的な手法の導入
- GLMM の導入と同時に,事前分布・事後分布といった概念を導入することで現代的な統計学モデリングの考えかたのひとつであるベイズ推定の考えかたにつなげる
- 従来の統計モデリングにくらべて自由自在な階層ベイズモデルに関して,簡単な応用例を示してその考えかたを説明する
この構想の軸は
- 一般化線形モデルの考えかた,その推定計算法である最尤推定
- 混合モデル (階層ベイズモデル) の考えかた,その推定計算法である Markov chain Monte Carlo (MCMC) 法
である.
一般化線形モデル (GLM) は今日もっともよく使われている統計モデルであるにもかかわらず,日本語で書かれた教科書ではほとんどとりあげられていない.また階層ベイズモデルは近年になって普及してきた技法であり (利用拡大の背景のひとつは汎用 MCMC 計算ソフトウェアの普及である) 入門的な教科書は多くない.
このような GLM から階層ベイズモデルにつなげる方針でもってのぞんだ統計モデルの説明は,私自身が大学で担当している統計学授業においてそれなりに有効なものであった.参考のためこの講義資料をおいた URL を付記しておく.
http://hosho.ees.hokudai.ac.jp/~kubo/ce/EesLecture2007.html
この講義資料で示しているのと同様に,本書では基本的な考えかたについて具体的な例にそって具体的に説明することをめざす.おそらく,これが今日の (とくに生態学・環境科学分野の) 統計学ユーザーの多くに適していると考えられるからである.同時に,統計モデリングの説明は数式による表現だけでなく R code (S 言語) あるいは BUGS 言語 (これも S 言語にもとづく) も重視する.つまりそのような「実装例」を示すことで,統計学的な手法のブラックボックス化の回避,つまり具体的な実装方法を示すことで読者自身による試行錯誤をとおした理解を補助することを目的としている.
統計ソフトウェア (あるいは統計環境) R は free softoware (無料かつ内容が完全に公開されているソフトウェア) であり現代の統計解析において科学の諸分野をまたいでいるひとつの統計解析インフラとして発展しつつあるソフトウェアであり,本書でとりあげるにふさわしいと判断した.また汎用 MCMC 計算ソフトウェアで使われる BUGS 言語も同様である.
3. 目次案
- データ解析は統計モデリング
- keywords: 統計モデル,確率分布,最尤推定法
- ありがちなデータ解析とその問題点
- 理論とデータ
- 観測データをうまく説明する統計モデリング
- keywords: 統計モデル,確率分布,最尤推定法
- 統計モデルの部品とねらい
- keywords: 確率分布,尤度,最尤推定法
- 部品: 確率分布
- ねらい: 尤度と最尤推定法
- keywords: 確率分布,尤度,最尤推定法
- 一般化線形モデルで始める統計モデリング
- keywords: GLM,ポアソン回帰,deviance,モデル選択
- ポアソン回帰
- AIC によるモデル選択
- 尤度比検定
- keywords: GLM,ポアソン回帰,deviance,モデル選択
- 「何でも割算値」化から脱出するための GLM
- keywords: ロジスティック回帰,offset 項
- ロジスティック回帰
- 対数線形モデル
- オフセット項を利用する
- keywords: ロジスティック回帰,offset 項
- 「個体差」などを表現する階層ベイズモデル
- keywords: GLMM,階層ベイズモデル,MCMC
- 経験ベイズ法と一般化線形混合モデル
- 負の二項分布モデル
- 階層ベイズモデルと MCMC 法
- keywords: GLMM,階層ベイズモデル,MCMC
- 階層ベイズモデルの応用
- keywords: nest した構造,時系列データ,空間統計
- nest した構造の統計モデル
- 時間変化をあつかう統計モデル
- 空間構造をあつかう統計モデル
- keywords: nest した構造,時系列データ,空間統計
4. 分量
不明 -- 一節を 20 ペイジとすると全体で 300 ペイジ弱?
5. 完成時期
不明 -- 伊庭さんと相談していたときは 2010 年ごろまでに完成という話でした
6. その他
とくになし