「ぎょーむ日誌」目次に戻る | KuboWeb top に戻る | twilog | atom

ぎょーむ日誌 2002-05-14

苦情・お叱りは, たいへんお手数かけて恐縮ですが, 久保 (kubo@ees.hokudai.ac.jp) までお知らせください.

2002 年 05 月 14 日 (火)

まず x 対 y/x のあいだの「相関」を調べるのがよろしくない理由 は,y が x とは無関係な量であっても x と y/x のあいだに 「有意な負の相関」がみえてしまうためです.とうぜん x 対 y*x の あいだにもニセの「有意な正の相関」ができたりするわけですが, 生態学者は割算ほどにはかけ算を好んでいないようなので,こちらの 問題はあまり生じないようです.
ここでいう「有意な」とは(相関を調べているので) 「相関ゼロである二次元正規分布から標本集団が得られた」 という帰無仮説が棄却された,という意味です.
ここまでは線形相関 (Pearson の相関) のハナシですが,おそらく 順位相関などノンパラメトリック検定を用いても 同じ結果になるでしょう (これは数値例で実験してみます).
「回帰」の場合はこれとは微妙に異なります.それは (x, y) が 二次元正規分布ではなく,(x の分布はまぁどうでもよくて) y の値 だけが何かの確率分布 (たいていのヒトは等分散正規分布を仮定するわけですが) にしたがう確率変数と考えているからです.
私が前のメイルで「回帰は場合によって」云々と書いていたのは, このときに y がどういう確率分布に従うか,つまり によって x 対 y/x の回帰の「よろしくなさ」が変わるんでは,と いう意味でした.
一番単純な例では y が x とは無関係で分散一定の確率分布から 得られた標本集団だとします.このときに y/x を a x + b + error (error は平均ゼロ分散一定の正規分布にしたがう確率変数) で回帰すると何がまずいか?
相関を調べている場合と同様に回帰でも y/x = ax + b + error に おいても a が「有意に」傾いているとかいないとかいう ヘボい結論を出したりするのも生態学の伝統芸能ですけれど (DBH 対 DBH の RGR とか), このへんに関しては相関の場合と 同じ理由でまずいということがわかるでしょう.
それ以前に,そもそも a だの b だのの推定量がアヤしい,という 問題があります.もともとのデータ y は分散一定であったのに, これを x で割ることによって x が小さいところでは分散大きく, x が大であれば分散小,というふうに「変換」されてしまうわけで す.
直線回帰に限らず,このテのパラメーター推定は 分散の大なるところに sensitive です. 推定計算プログラムはばらつきの大きなところに「合わせよう」とする …… つまり最尤法的に説明すると, そういう「はずれ」の多いところで失点を減らして尤度をかせごう とするわけです.
だったら (竹中さんがやったように) 「変換された量 y/x の ばらつき具合を x の減少関数としてパラメーター推定」 してやればいいか,というと …… まぁ,これは統計学的手法だけの問題という 「より単純なモデルをつくる」 という理念に反しているという言いかたができるのかもしれません.
本来 mean(y) = f(x) かつ variance(y) = g(x) と 素直に表現できるのに, わざわざ mean(y/x) = f'(x) かつvariance(y/x) = g'(x) としなければならない理由は何か? 前者のように書けるときには, 後者のより複雑な定式化が正当化できないので 使う理由がないということです.
直接に測定可能な量 y の傾向だのばらつきだのが x に どう依存してるかをできるだけ簡単に説明するのが統計学的手法の役割 であって, よくわからぬ仮定にもとづいて必要もない 変数変換をするべきではない (そのような操作を正当化できる理由がない), と説明すればよいのでしょうか ……
> > よくわからぬ仮定にもとづいて必要もない変数変換を
と書いた「よくわからぬ」というのは,こういう生物学的動機 というのが統計学的手法のわくぐみの中ではよくわからない, ということになります.というのも,統計学的手法ってのはたんに確率変数 (何かの確率分布にしたがう変量) を取り扱う方法にすぎないんで.
スローガン的には 「統計学の世界に生物学的に動機づけられて計算された指標を持ちこまない, 直接に測定された量だけをもってくる」 ということでしょうか.
	> L と A が無関係だと A/L と Lのあいだには負の相関が見えるわけですが,
	> L と A が無関係だと,長いシュートよりも短いシュートで葉が混み合うのは
	> 確かです. それでも,A/L と Lのあいだの負の相関ははたしてニセモノと
	> 呼ぶべきなのでしょうか?
いろいろな説明のやりかたがあると思うんですが ……
なにか二つの変量 L と A が無関係な量であると判明している場合 において,「L と A/L とのあいだの(正または負の) 相関のあり」 を調べる,ということですね.相関の定義が線形相関であっても 順位相関であっても以下の説明でよいと思うのですが ……
この仮説の帰無仮説は「L と A/L は無相関」となります.これが 成立するためには A/L という量の中で,分子 A が分母 L の効果を打ち消すような役割,つまり A = f(L) というような 何らかの関数関係が成立している必要があります.
ところがここではすでにして L と A が無関係な量とわかっているので (A は L の関数ではない),この帰無仮説が棄却されない 確率はゼロです.つまり「L と A/L は無相関」という帰無仮説は 必ず棄却されるので検定する必要がありません. 統計学的には無意味な問題になりはてている,といいますか.
これに気づかないヒトたちは「p < 0.0000001 で有意」とか 結論したりするわけです.
	> 別のアプローチとして,L と A/Lではなく,L と A の関係を解析する場合は
	> どうでしょう.L と A が無関係だということがわかれば,それにもとづいて
	> 長いシュートよりも短いシュートで葉が混み合うと結論すればよいのか?
こちらのほうが簡単でわかりやすいですよね. 直接測定可能な量である L と A の関係を解明するのが 統計学的道具の基本的な役割で, 生物学的にはそれで十分なのです.
	> でも,L と A とが無関係ではなく,ある程度の正の相関があるという結果に
	> なったらどうでしょう.その相関が,長いシュートよりも短いシュートで葉が
	> 混み合うという傾向を完全に打ち消すほどのものかどうかが問題になります.
	> そこで,L と Aの定量的な関係にもとづいて検討する,ということになる
	> んでしょうか.
そういう場合は A = f(L) と推定して (という定式化がモデル選択できるかどうかを統計学的に検討して), f(L)/L が L の減少関数になるかどうかをみればよいのではないでしょうか.
そうすると 「L が 3cm までは増加関数だけどそれより長くなると減少関数」 といった関係も見つかるかもしれません. 最初から A/L = f(L) としてしまうと, こういった情報も失われることがあります.

KuboLog | KuboWeb