ぎょーむ日誌 2007-06-07
2007 年 06 月 07 日 (木)
-
0800 起床.
コーヒー.
朝飯.
0910 自宅発.
曇.
0920 研究室着.
-
0930-1040 地環研講堂で教授会.
会議といっても何かとくに議論があるわけでもなく,
書類の束が配布されてその内容を研究院長の岩熊さんその他が
読み上げていく,
というもの.
ということこで,
昨日のつづきで Clark 御大論文を読んでみた.
いまながめてるのは,
1.5 年前の
論文紹介
でとりあげた Clark et al. (2003).
-
以前みたときには二次元正規分布の事前分布 + Wishart 分布の超事前分布の
「つかわれかた」
というのがよくわからなかったんだけど
……
今日よみなおしてみてよーやく理解できたんだけど,
この論文で紹介されてる階層ベイズモデルにおける
多変量正規分布の事前分布の分散-共分散行列は,
biological (な解釈) には何の意味もなく,
(極端ないいかたをすれば)
ただ単に MCMC 計算の収束を速めるためだけに役だっているらしい,
と理解できた.
-
複数の推定値のあいだにはどうしても
(biological には何の意味もない)
「相関」ができてしまう
(例: いわゆる直線回帰の「切片」「傾き」の推定値間の相関)
ので,
どうせなら事前分布にくみこんでしまえ
(sampling の効率がよくなるだろう),
という発想だろう.
ふーむ,
やはり係数間の分散共分散行列を生成させても,
こっちの「推定値間の相関」を見てしまうことになるよな
……
-
つまりこういう状況だ.
個体 i で観測された何かの現象を説明する
統計モデル内に
a + b x_i
という線形部分 (linear predictor)
があるとしよう.
説明変数 x_i
は個体 i に固有なもので,
説明したい現象も一回だけ観測されたものとする
(これは上の Clark 論文であつかってる例題と同じ状況).
このときにパラメーター
a
と
b
の両方に「個体差」をいれたモデリングをやりたいところなんだけど
(たぶん現実には両方に「個体差」あるだろうから),
a + b x_i
と足してしまうので両パラメーターに「個体差」いれてしまうと
ややこしくなる
(だけならよいが,しばしばわけわからなくなる),
と.
-
で,
Clark 御大方式 (と仮に呼ぶことにしよう;
Bayesian modeling ではよくある手口)
というのは
a
と
b
の事後分布がそれぞれ独立した事前分布から生成されるのではなく,
パラメーター間の「相関」
(といっても解釈上の「biological な意味」とやらはとくにない)
を考慮した二次元正規分布の事前分布から生成させる,
と.
無情報な超事前分布から生成される (事後的な?) 事前分布は
おそらく
a
と
b
のあいだに強い負の相関があるだろう
(すると 2 パラメーターが実質的に
1 パラメーターに縮退する場合もある).
-
私自身はこのような状況での階層ベイズモデリングにおいては,
パラメーターと説明変数をよくみて,
「個体差」パラメーターの数を
可能なかぎり減少させる,
という方法で対処してきた
(これもよくある手口).
つまり上の例だと
a
には「個体差」あるとして
b
にはいれません,
といったモデリングで面倒を回避できる.
Clark et at. (2003) でもいくつかのパラメーターにはこの方策がとられている.
-
Clark 方式と久保方式を比較してみるとこうなるだろう.
久保方式は多変量正規分布だの Wishart 分布だのもちださなくてすむぶん,
まあ何となく「わかりやすい」という印象をもたれるかもしれない.
しかしながらこの方式では状況がもっと複雑になった場合,
たとえば観測が一回だけでなく複数回になったりすると
うまくいかなかったりするだろう.
これに対して Clark 方式はどういう場合でも柔軟に対応できそうなので,
拡張性のあるやりかたになっているのだろう.
-
ところで,
ここであつかってるパラメーター推定値間の相関に関して,
biological (な解釈) には何の意味もない,
と強調してるけど,
べつにこれはそれが悪いとかいってるわけではない.
観測値間だの推定値間だのに生じる「相関」にはいろいろな種類があり,
biological に意味のない「相関」もでてくるんだけど,
統計モデルのなかではそういうのも注意ぶかく扱わねばならないね,
ということだ.
悪いのは「パラメーター間の相関」といえば
何でもかんでも
「とれーどおふだ!!
進化の帰結だ!!
多種共存だ!!」
とか無意味に騒ぎまくったりする理解の浅い一部の連中の所業である
……
むろん狡猾なる Clark 御大はこんな簡単なところでしくじるはずもない.
われわれ
職業的うそつき
にとって用心ぶかさは美徳なのである.
-
そして私をナヤませてるのは biological に意味が「ありそう」な
相関を多変量な事前分布で表現することなのだが,
この論文にはそれに対するお手軽回答はない.
御大の近著論文 (まだ online early 版のみ)
``Resolving the biodiversity paradox''
はそのあたりちょっとふれているようなんだが
……
-
ともあれ階層ベイズモデリングに興味あるヒトは
Clark et al. (2003)
を精読してみればよろしかろう,
と思うわけです.
-
Clark et al. (2003) ではいろいろと MCMC 計算わざが使われてるのだけど
(Wishart 超事前分布のパラメーターの与えかた,など),
そのネタ本のひとつは
Carlin P.C. & Louis T.A. 2000.
Bayes and empirical Bayes methods
for data analysis.
Chapman & Hall / CRC
……
で,
この本もってるんだけど,
どこにそういう Wishart 分布わざネタがあるのかよくわからん.
目次・さくいんではみつけられん.
-
見つからんはずで,
もう一方のネタ本である
Gilks et al. (1996)
(Clark et al. (2003) では 1995 と誤記されてるが)
のほうに掲載されてるじゃないか!
p.307:
...
To avoid this while still allowing the random effects a
reasonable amount of freedom, we adopt the rule of thumb
wherein ρ = n / 20 and R = ...
-
自宅冷蔵庫内の残りものかたづけるべく,
1240 研究室発.
走ると 7-8 分で帰宅できる.
昼飯.
のんびりと皿洗いなどして,
自宅発.
ちょっと雨.
1330 研究室もどる.
-
トドマツ原稿に関して,
東大の練さんからいろいろとご指摘が.
修正作業にとりくむ.
-
……
で思わず熱中してたら,
時刻はすでに 1415.
1400 から始まる別の会議には遅刻だな.
ということで不参加決定.
ちなみにこれは
「平成 19 年度第 1 回大学院環境科学院教授会」
とやらで,
午前中のは
「平成 19 年度第 3 回研究院教授会」
なのである.
組織を意味もなくひねくりまわすから会議が増殖するわけだ.
-
しかしこれって「定足数」とかいう条件くりあーしないと,
「再試合」になったりするわけだな.
会議中は集中して勉強できることだし,
あまりサボらないようにしよう.
-
1450 ごろトドマツ原稿の修正作業終了.
やっぱテキストエディター (
vim
)
& LaTeX & R 作図を組みあわせた環境は修正がラクでいいわ
……
ファイルアップロード & 練さん・後藤さんにメイル送信.
-
論文原稿といえば,
志水さんからの連絡で,
当方の腐れおうぷんおひす数式エディタでフォント設定を改めると,
志水さん Mac の NeoOffice でも問題なく数式が表示されるとわかった.
-
教訓:
Vine Linux が packaging した openoffice.org
の数式エディタの font 設定は
「他の OS でも見れそうな font」
が default となるようあらかじめ設定変更しておく
(すくなくとも
sazanami
のたぐいはダメみたい)
-
昨日はからぶりに終わった
「地環研内はげしく上下移動ポスター提出の旅」
は本日は問題なく終了.
ついでに気分転換の運動になる.
-
当節の学術ぢゃーなるにしては発行頻度が低い
Environmental and Ecological Statistics
(← まあこういうマニアな方向性なので
論文あまりないのかもしれないけど),
最新号の目次がきた.
ふーむ,
``Simulating correlated count data''
(DOI URL:
http://dx.doi.org/10.1007/s10651-007-0008-1)
といったおもしろそうな内容のものあるな.
相関のある Poisson 分布由来のカウントデータだしたければ,
まあふつーはこの平均値の対数を多変量正規分布にしてやる,
といったワザがよく使われるんだけど,
この方式では
-
必ず overidspersion があるものと仮定せねばならぬ
-
平均値が低い場合に低い相関しか許容されない
といった欠点あるので,
それを改善する方法を考えました,
というもの.
まにあだ.
たしかに私は重要な問題だと認識するんだけど
……
-
げ,
やはり恐れていたとーり,
いきなり
蟻類研究会大会
の要旨だせとかいういつものごとき唐突なる大統領命令が発せられたよ
……
来週月曜日提出,
か.
なーんかでっちあげないといけないね.
-
とゆーことで,
また岩倉さんのエゾアカヤマアリ修論などひっぱりだしてみる.
うーむ
……
-
関係ないけど,
ゐきぺでぃあに
アルゼンチンアリ
の項目が新しくできたな.
-
1835 研究室発.
1850 帰宅.
ちょっと時間おそいけど洗濯機まわしてみる.
1930 洗濯終了.
晩飯.
-
社会保険庁
の
年金個人情報提供サービス
とやらで,
アカウント申請するといま話題の個人年金データをながめることができる
(ただし共済年金に関しては支払回数わかるだけで詳細はわからない).
私の場合,
国民年金
→ 厚生年金 (いまは亡き
NASDA 傭兵の独房群時代)
→ 共済年金,
と変化してきたわけで
……
ふーむ,
国民年金に関しては「納付済」で 110ヵ月がうまっているな.
-
[今日の運動]
-
[今日の食卓]
- 朝 (0840):
米麦 0.6 合.
キャベツ・タマネギ・キュウリのサラダ.
シシトウ炒めもの.
ブナシメジの味噌汁.
- 昼 (1255):
米麦 0.6 合.
ニラ雑炊.
キャベツ・タマネギ・キュウリのサラダ.
シシトウ炒めもの.
- 晩 (2030):
米麦 0.8 合.
タマネギ・卵の炒めもの.
キャベツ・タマネギ・キュウリのサラダ.