ぎょーむ日誌 2002-05-14
2002 年 05 月 14 日 (火)
- 0750 起床.
シャワー.
朝飯.
0820 自宅発.
晴.
0830 研究室着.
- Abies 集団計算
……
50 年目あたりで全滅.
うーむ,
高さ 4m 以上に巨大化した個体を殺すために導入した仕掛け
(稼いだ資源の全てを生残に使えるわけではない,
というやつ)
が効きすぎたようだ.
さてさて,
どうしたもんだろうか.
- 昨日,
竹中さん
のホオノキモデリングの
パラメーター推定に関してコメント送ったところ
……
私の説明のいーかげんなところについて質問されたので,
以下のような説明を試みてみた.
まず x 対 y/x のあいだの「相関」を調べるのがよろしくない理由
は,y が x とは無関係な量であっても x と y/x のあいだに
「有意な負の相関」がみえてしまうためです.とうぜん x 対 y*x の
あいだにもニセの「有意な正の相関」ができたりするわけですが,
生態学者は割算ほどにはかけ算を好んでいないようなので,こちらの
問題はあまり生じないようです.
ここでいう「有意な」とは(相関を調べているので)
「相関ゼロである二次元正規分布から標本集団が得られた」
という帰無仮説が棄却された,という意味です.
ここまでは線形相関 (Pearson の相関) のハナシですが,おそらく
順位相関などノンパラメトリック検定を用いても
同じ結果になるでしょう
(これは数値例で実験してみます).
「回帰」の場合はこれとは微妙に異なります.それは (x, y) が
二次元正規分布ではなく,(x の分布はまぁどうでもよくて) y の値
だけが何かの確率分布
(たいていのヒトは等分散正規分布を仮定するわけですが)
にしたがう確率変数と考えているからです.
私が前のメイルで「回帰は場合によって」云々と書いていたのは,
このときに y がどういう確率分布に従うか,つまり
-
ある x における y は
どういう確率分布に従っていると考えられるか?
-
y の分散は x にどう依存しているか?
(等分散なのか? それとも x の関数になっているのか?)
によって x 対 y/x の回帰の「よろしくなさ」が変わるんでは,と
いう意味でした.
一番単純な例では y が x とは無関係で分散一定の確率分布から
得られた標本集団だとします.このときに y/x を a x + b + error
(error は平均ゼロ分散一定の正規分布にしたがう確率変数)
で回帰すると何がまずいか?
相関を調べている場合と同様に回帰でも y/x = ax + b + error に
おいても a が「有意に」傾いているとかいないとかいう
ヘボい結論を出したりするのも生態学の伝統芸能ですけれど
(DBH 対 DBH の RGR とか),
このへんに関しては相関の場合と
同じ理由でまずいということがわかるでしょう.
それ以前に,そもそも a だの b だのの推定量がアヤしい,という
問題があります.もともとのデータ y は分散一定であったのに,
これを x で割ることによって x が小さいところでは分散大きく,
x が大であれば分散小,というふうに「変換」されてしまうわけで
す.
直線回帰に限らず,このテのパラメーター推定は
分散の大なるところに sensitive です.
推定計算プログラムはばらつきの大きなところに「合わせよう」とする
…… つまり最尤法的に説明すると,
そういう「はずれ」の多いところで失点を減らして尤度をかせごう
とするわけです.
だったら (竹中さんがやったように) 「変換された量 y/x の
ばらつき具合を x の減少関数としてパラメーター推定」
してやればいいか,というと ……
まぁ,これは統計学的手法だけの問題という
「より単純なモデルをつくる」
という理念に反しているという言いかたができるのかもしれません.
本来 mean(y) = f(x) かつ variance(y) = g(x) と
素直に表現できるのに,
わざわざ mean(y/x) = f'(x) かつvariance(y/x) = g'(x)
としなければならない理由は何か? 前者のように書けるときには,
後者のより複雑な定式化が正当化できないので
使う理由がないということです.
直接に測定可能な量 y の傾向だのばらつきだのが x に
どう依存してるかをできるだけ簡単に説明するのが統計学的手法の役割
であって,
よくわからぬ仮定にもとづいて必要もない
変数変換をするべきではない
(そのような操作を正当化できる理由がない),
と説明すればよいのでしょうか ……
久保結論のさらに短い要約を試みるならば
……
「パラメーター推定というのは,
直線回帰だろうが一般化線形モデルだろうが最尤推定だろうが,
あちこちに危険がいっぱい」
ということ.
-
私が最尤推定法によって単純なモデルを採用している理由のひとつは
(変数変換などによって生じる)
このあたりの危険を少しでも軽減するため
- 午前中の講義おえた甲山さんと Abies PipeTree 議論が
1400 ごろまで続いた.
今朝得られた計算結果,
(縞枯地帯でもないのに)
林分内一斉枯死という現象が生じるモデルになってしまったんで,
この性質を何とか悪用できないだろうか,
というもの.
Abies PipeTree
世界の言わば狂った精密さに満ちた論理的整合性の制約下において
許容されうる改変方法
――
これは,
とうぜんながら,
お望みの結果を出しそうなものでなければならない.
何が現実的で何が理論的なのか判然とせぬかかる面倒な問題を
それぞれ
(よく言えば)
独特なモデリングセンスの双方がわーわー議論したもんで
なかなか収束しなくてあちこちに話とぶとぶ
……
- ともあれ,
現在の
「針葉群において得られた利用可能資源の総量のうち
一定割合未満のみを非同化部 (材) の維持呼吸に使用する」
とするとある齢における「突然死」が避けられそうにないんで
……
同じような機構なんだけど,
そう簡単には個体ごと死なないように針葉群ごとに
「維持呼吸用資源」
の供出を管制することに.
- とりあえず,
針葉群重量で供出量決めてみて,
ダメだったら生産効率依存にしてみる.
いずれにせよ競争敗北個体が死ににくくなるんだけど.
- 竹中さんとの議論もつづく.
> > よくわからぬ仮定にもとづいて必要もない変数変換を
と書いた「よくわからぬ」というのは,こういう生物学的動機
というのが統計学的手法のわくぐみの中ではよくわからない,
ということになります.というのも,統計学的手法ってのはたんに確率変数
(何かの確率分布にしたがう変量) を取り扱う方法にすぎないんで.
スローガン的には
「統計学の世界に生物学的に動機づけられて計算された指標を持ちこまない,
直接に測定された量だけをもってくる」
ということでしょうか.
まぁ,
このへんは今年 3 月の生態学会大会シンポジウム
「データマイニング」
での粕谷さんの発表にかなり影響されて,
というのもあるわけで.
- さてさて,
焦点の
「なぜ x と y/x の相関を調べたりするのはマズいのか?」
という問題について.
これはふつー「自己相関」の一言で片づけられることが多いんだが
……
それでは説明になってない,
とするとどう考えてみればよいのか?
> L と A が無関係だと A/L と Lのあいだには負の相関が見えるわけですが,
> L と A が無関係だと,長いシュートよりも短いシュートで葉が混み合うのは
> 確かです. それでも,A/L と Lのあいだの負の相関ははたしてニセモノと
> 呼ぶべきなのでしょうか?
いろいろな説明のやりかたがあると思うんですが ……
なにか二つの変量 L と A が無関係な量であると判明している場合
において,「L と A/L とのあいだの(正または負の) 相関のあり」
を調べる,ということですね.相関の定義が線形相関であっても
順位相関であっても以下の説明でよいと思うのですが ……
この仮説の帰無仮説は「L と A/L は無相関」となります.これが
成立するためには A/L という量の中で,分子 A が分母 L
の効果を打ち消すような役割,つまり A = f(L) というような
何らかの関数関係が成立している必要があります.
ところがここではすでにして L と A が無関係な量とわかっているので
(A は L の関数ではない),この帰無仮説が棄却されない
確率はゼロです.つまり「L と A/L は無相関」という帰無仮説は
必ず棄却されるので検定する必要がありません.
統計学的には無意味な問題になりはてている,といいますか.
これに気づかないヒトたちは「p < 0.0000001 で有意」とか
結論したりするわけです.
……
というハナシにしてみた.
これで間違いないんだろーか.
- さて生態学者たちが愛してやまない割算を使わずして,
ここに例として挙げられているようなデータを解析するには,
どうしたらよいか?
> 別のアプローチとして,L と A/Lではなく,L と A の関係を解析する場合は
> どうでしょう.L と A が無関係だということがわかれば,それにもとづいて
> 長いシュートよりも短いシュートで葉が混み合うと結論すればよいのか?
こちらのほうが簡単でわかりやすいですよね.
直接測定可能な量である L と A の関係を解明するのが
統計学的道具の基本的な役割で,
生物学的にはそれで十分なのです.
> でも,L と A とが無関係ではなく,ある程度の正の相関があるという結果に
> なったらどうでしょう.その相関が,長いシュートよりも短いシュートで葉が
> 混み合うという傾向を完全に打ち消すほどのものかどうかが問題になります.
> そこで,L と Aの定量的な関係にもとづいて検討する,ということになる
> んでしょうか.
そういう場合は A = f(L) と推定して
(という定式化がモデル選択できるかどうかを統計学的に検討して),
f(L)/L が L の減少関数になるかどうかをみればよいのではないでしょうか.
そうすると
「L が 3cm までは増加関数だけどそれより長くなると減少関数」
といった関係も見つかるかもしれません.
最初から A/L = f(L) としてしまうと,
こういった情報も失われることがあります.
……
というふうに質問巧者の竹中さんに
誘導されて導出した自分なりの回答,
ということで.
- 単なるやさぐれ計算傭兵にすぎない私とは異なり,
どういうシロモノの中にも
善き何かを発見する努力を怠らぬ竹中さんは
「このアプローチでは,
モデルをあてはめたり計算したりする前に
じっくり生の測定データを見ることを要求されますが,
それが当然ですね」
と人々に受け入れやすい方針を得ておられる.
久保メイル文なぞ読んでココロすさんだ人たちは
これで精神の均衡を取りもどしてください.
- ここに引用したのは他のヒトに読んでもらうため,
というより
(というか誰かこんなだらだらした文章読んでいるのか?),
むしろあとから自分が原稿書きのときに参照するため.
(以前のぎょーむ日誌にちらっと書いたんだけど)
他ならぬ竹中さんに
「アロメトリー解析に伴う統計学的問題の小文を」
という依頼をされている.
ペイジ数は多くないから,
いっそのことこの割算問題だけをとりあげて
「日本の生態学と割算」
というようなとっぴな題名で書こうかな.
むろん,
凶々しい数値例でもこしらえて,
だ.
- Abies PipeTree 計算,
やはり個体がなかなか死なない
……
と思ってると,
20 年前の自著論文ながめつつ甲山さん指摘するところによると,
30 個体/10 m2 というような個体群の場合,
50 年目あたりまで競争敗北個体の死亡が発生しなくても不思議ではない,
ということのようで
……
さて.
- うだうだと夜をすごしてしまう.
- いま計算はネット経由で隣室の
<Lex>
でやらせてるんだが,
すこし樹木内資源配分のやりかたをかえて
机上の
<BookPC>
でも計算させてみる.
いずれにせよ明朝まで結果わからないだろうから今日はここまで.
2100 研究室発.
北 12 生協で買い物 (ここは 22 時まで営業).
2130 帰宅.
- [今日の運動]
-
今日も運動時間を逸してしまった.
夕方あたりに走ろうとするんだけど,
ふと気づくと夜になって血糖値低下,
運動する気ナシ状態になって
……
17 時から運動,
とか時間を決めたほうがいいかもしれんなぁ.
- [今日の食卓]
- 朝 (0810):
にせバゲット.
牛乳.
- 昼 (1410):
研究室お茶部屋.
米 0.7 合.
コマツナ・ピーマン・マイタケの炒めもの.
- 晩 (1930):
研究室お茶部屋.
米 0.7 合.
昼の残り.