更新: 2012-09-24 21:50:27
生態学のデータ解析 - 「合宿」2006 粕谷
- 「合宿」2006 (「合宿」2006 詳細) に関する粕谷さんのコメントなどまとめたものです.
「合宿」のお礼など (2006-04-03)
「合宿」メイリングリストの皆さま、粕谷です。今回はありがとうございました。
混合モデルや空間統計、ベイジアンなど、いろいろ勉強した二日間でした。また、個人的には、新潟に行く前にあれこれと考えていた「いったん推定した量をあたかも測定値であるかのようにして次に使う際、推定値の分散などは無視されているが、もっとましな方法はないのか」といった問題にも手がかりをえました。
私にとっては初めて会ってお話しした方も多く、おそらくみなさんと知り合いお話しできたことが今回の最大の成果だと思います。
ところで、現実の問題に統計的方法を適用する際には、しばしば統計モデルの要素と対応する現実の量は何か、どのような誤差構造をどのレベルで想定するべきか、といった問題を解かねばなりません。その際、それまでに知られていないことを明らかにしなければいけないことが多いのですが、論文に値する知的な作業だと認識されていないことがよくあります。私の知る限りではアメリカ生態学会誌のEcologyだけがちがう立場を明確に宣言しています。Statistical Reports という区分の論文は、統計的方法をどのように生態学の問題に適用するかを扱うものだ(新しい生態学ないし統計の理論を述べた論文ではなく)、と述べています。
http://esapubs.org/esapubs/journals/ecology.htm の Statistical Reports のところを参照
同様のことは、David Salsburgの The Lady Tasting Tea: How Statistics Revolutio nized Science in the Twentieth Century. W H Freeman、(翻訳が『統計学を拓いた異才たち―経験則から科学へ進展した一世紀』日本経済新聞社)の第8章の Bliss のところでも述べられています。
もし、そのような内容の論文を書いたがどこに出そうか?という際には、Population Ecology (個体群生態学会がspringerを通じて発行しており、いま私は副編集長をしています)も受け皿になれると思います。
この合宿でとりあげたいと考えている話題の例
- 混合モデルのわりとややこしい話
- (例) いまサンショウウオの幼生の成長データを分析していて、水槽(個体が何頭か入っている:処理は温度×時期の2元配置で、1つの処理組み合わせの中に5つの水槽があります)内の分散が、時間とともに変化し水槽間でも異なるだけでもくらくらしていますので、整理するうえでも聞きたいところです。
- overdispersion の話
- (これは下の粕谷さんの話題提供参照)
- 系統樹を統計的に扱う困難さと”孤立性”と”関連性”
- 系統樹の分析は、もともとのものが複雑なうえに系統樹のことだけのマニアックな話という雰囲気があります。実際そういう面はあり(それを”孤立性”と呼びました)ますが、一方では、他にも使える方法が、系統樹では問題の複雑さへの対策に迫られて(また、人もこの問題に集まっているので)実用化されたり適用されたりしているという面(”関連性”)もあります。私自身の経験で言えば、パラメトリックブートストラップを知ったのは分子系統樹の論文からでした。
- 空間的なものを考えた分析
検定とモデル選択について
これは”合宿”そのものの話ではないのですが、私ができれば新潟前後で”多少すっ きりしたい”と考えていることの1つです。いろいろご意見を聞かせていただければ 助かります。
昨年の生態学会自由集会も1つの契機なのですが、モデル選択(たとえばAIC)と検定の使われ方にいろいろあることに改めて気づきました。その中にどうも考え込んでしまうものがあります。
(1)データの分析前には仮説はほとんどなく、『何でもいいから見つからないから』 (dredging)状態である→モデル選択でモデルを狭めておく→選ばれたモデルに取り 込まれている変数のうち好きなものを検定する
こうすると、見かけ上検定するものが減るので、多重検定の影響を小さくするように 見せることができます。
この(1)が変だということはすぐわかります(隠蔽されると、この(1)と以下の(2)を区別するのはしばしば困難ですーしかし、この困難性は検定だけでも似たようなこと[総ざらいで見つけた相関などを、それだけ検定したかのように言う]はあるのでモデ ル選択との関係で出てくることではないでしょう)。
以下のケースはどうだろうか、というのが問題です。
(2)分析前に、変数Aが目的変数Bに影響を与えているか、といった内容で仮説は明 白。だが、他の要因が変数Bに影響を与えているかどうかはわかっていない。→モデ ル選択で他の要因(交絡要因、blocking変数、層別因子、共変量と呼ばれるものの一 部)のどれをとりこんで検定に使うモデルを構成するか決める→変数Aが目的変数Bに 与える影響の検定をする
というのはどうなのでしょうか。何かはさまっているような変な感じはあるのですが (ロジックのちがうものの混在に由来すると思います)、モデル選択を大まかにとら えると、大きく間違っていないような気もします。今、私にはここがおかしいと明快 に指摘できるものはありません。
また、これがもしおかしいとすると、他の要因を取り込むかどうかはどうやって決め るべきでしょうか
(2-traditional)検定に使うモデルに他の要因(交絡要因、blocking変数、層別 因子、共変量の一部)のどれを取り入れるかは検定で決めるべきである。
がいいのでしょうか。このやり方は昔から使われていますが私にはどうもこれが妥当 とは思えないのですが。
また、
(2-all)とにかく測ってある(わかる)要因はすべて入れる。
というのがいいとは思えません。
あるいは、
(2-radical)分析前に他の要因(交絡要因、blocking変数、層別因子、共変量の 一部)も含めて、検定に使うモデルが確定していないなら検定をすべきでない。すべ てが確定しているときのみ検定してよい。
もしくは
(2-radical2)分析前に他の要因(交絡要因、blocking変数、層別因子、共変量の 一部)も含めて、検定に使うモデルが確定していないなら検定をすべきでない。そう いった状況ではモデル選択をすべきで、検定をするべきではない。
ということになるのでしょうか?
(2)で考えている状況は、結構一般的な状況だと思います。簡単なところでは、Beherens-Fisher問題のような2つの位置母数の比較で、分散(尺度母数)をちがったものにするかどうか、といった問題から、複雑なところでは、分子系統でトポロジーだけに関心があるときに分子進化のモデルとしてはどれを使うか、までいろいろあると思います。
もちろん、私が1つの問題としてくくれると今とらえている問題(群)が、実は異 質な複数の問題であり、そのどれであるかにより適切な方法は異なるということもあ りえるでしょう。
リンク関数や交互作用について
(久保による内容の抜粋・要約です)
どのモデル (どういった確率モデル = 確率分布 + 平均・分散の関数型) を適用するかにより、要因の効果の大きさの推定値が異なるわけであるが、ある意味では当然の結果でもある。 複数の要因が関与 うな分析法なら主効果)は、要因の効果の間に特定の関係(足し算とか掛け算とかロジットとか)を仮定せずには推定できないので、データだけから自然に導かれるものではない。 そこで、”なぜ他のモデルではなくあるモデルを使うのか”がいつも必要であることになる。 研究の歴史の中で、特定のモデルを使うことに合理的で明確な理由がある研究分野やテーマではとくに問題は起こらないだろう。 だが、そうではないときには、『他の要因の効果をコントロールしたときの、その要因の効果』とか『他の要因の効果を除いたときの、その要因の効果』について述べようとすると、いつでも分析に使われた特定のモデルの使用を合理化する理由が必要である(統計的方法の教科書では、モデルの決定論的部分はそれぞれの研究分野により自ずから明らかと考えられている傾向があると思う).
(詳細は kasuyaEC2006a.pdf (PDF ファイル, 676KB) をみてください)