「ぎょーむ日誌」目次に戻る | KuboWeb top に戻る | twilog | atom

ぎょーむ日誌 2006-12-(11-20)

苦情・お叱りは, たいへんお手数かけて恐縮ですが, 久保 (kubo@ees.hokudai.ac.jp) までお知らせください.

2006 年 12 月 11 日 (月)

offset
[こういう架空データ]
いちばん簡単に, 子供 (新生児) の個体数がその集団の親の個体数に 「比例」 している状況.


2006 年 12 月 12 日 (火)


2006 年 12 月 13 日 (水)

unrantest

unrantest


2006 年 12 月 14 日 (木)


2006 年 12 月 15 日 (金)


2006 年 12 月 16 日 (土)

mcmc16a


2006 年 12 月 17 日 (日)

fix17
[スクラップ置場ではなく]
修理現場です. 左のケイブルわさわさしてるのがこのペイジを提供してる web server 機. HDD 交換作業中でかかる状況でインストール作業中. 中央が床に置かれた CRT ディスプレイ. 左の鍵盤と電気鼠が置かれている緑のハコは 「サンプル保存用冷蔵庫」, ここにある理由は, この部屋は院生たちのサンプル置場に指定されてしまったため.


2006 年 12 月 18 日 (月)


2006 年 12 月 19 日 (火)

  • 0700 起床. 朝飯. コーヒー. 0855 自宅発. 雪. 0910 研究室着.
  • また苫小牧シュートデータの階層ベイズモデルにとりくむ …… 試行錯誤のすえに, よーやくにして (WinBUGS でも理解できるという意味での) 「正しい」定式化がわかった! そして結果が格段に「いかにも Bayes 的」になってくれた.
mcmc19a

  • このモデリングの核心部をひとことで言えば 「(この場合の資源分割の「もと」である) シュート総重量を無情報事前分布から生成される隠れ変数」 としてしまえばよいのである. いやー, 何とも不思議な世界だなぁ.
  • 1030 より 研究室セミナー, 本日は小林君で道南におけるブナ-ミズナラ林のせめぎあいのハナシ. ミクロスケイルでみると「いいとこばかり」のブナが, 「良いところナシ」なミズナラを地域スケイルでは なかなか浸透駆逐できてないかのように見える (かな?) 理由はなぜか, がよくわからないんだよねえ. セミナー後, 混合モデルの浸透布教.
  • また苫小牧シュートの重量分割ベイズモデル. とりあえずの現状. 測定誤差と「個体差」の区別がみわけがつかないデータなので, そのあたりのばらつきでかい. 計算時間は n.iter で約 500 秒. DIC = 17180 ぐらい.
  • 資源分配に「シュート重量そのもの」を加えてみる. これで 1 + 13 個のパラメーター増えるわけだが ……
  • 初期化とかでちょっとじたばたしてみる. 計算まち時間はメイルかきとか.
  • yuji_nk さん から混合分布モデルに関する情報を教えていただく. このあたり, そのうち何か使うことになりそうな予感 ……
  • Bayesian Statistics And Marketing (Wiley Series in Probability and 
    Statistics)の3.9を読んでいましたら,
    
    Estimation of Finite Mixture Distributions through Bayesian Sampling
    Jean Diebolt, Christian P. Robert
    Journal of the Royal Statistical Society. Series B (Methodological), Vol. 
    56, No. 2 (1994), pp. 363-375
    
    が参照されていまして,さらにwebを彷徨っていたら,著者Christian P. Robert
    教授のHPにたどり着きました。
    http://www.ceremade.dauphine.fr/%7Exian/
    
    ベイズの本が出るようなのですが,そのサポートページ
    
    http://www.ceremade.dauphine.fr/%7Exian/BCS/
    
    にあった第6章Mixture models のスライドにGibbs Samplerが収束しない(ある
    いは収束に時間が掛かる?)ケースがありました。
    http://www.ceremade.dauphine.fr/%7Exian/BCS/Bmix.pdf
    このファイルの25枚目です。
    
  • シュート重量こみの計算 750 秒. DIC = 16672. 収束はややよくない.
  • なぜか David Spiegelhalter からメイルが来た! と思ったら私個人あてではなく 20600 人ばかりいる WinBUGS 登録ずみユーザーどもへの「2007 年の (ゐんばぐす全機能発動のための) key はこれだよ」メイルだった.
  • どうもシュートサイズそのもので変わる資源分配, というのはうまく組み込めない (収束がよろしくない) のでいったん外してみるか. 外してもまだよろしくない. 計算時間を長くしてみるか?
  • また計算まち時間メイルかき. 遅れている母子里林冠 MCMC 計算のおわび, とか.
  • うーん, なんだかいまいちな. そりゃあ, 昨日までとは比べものにならんほどマシにはなっているが …… 分散パラメーターの超事前分布の 「無情報」 ぶりを下げてみるか?
mcmc19b

  • 無情報ぶりを下げると, かえって chain 間の差がひろがる, と. じゃあ次の一策として, 測定誤差と「個体差」を強引に分離してみる, とか?
  • …… で, いろいろやってみたんだが, なぜかしらこの方策はダメだ. 測定誤差 100mg ぐらい, といったケタで設定するとパラメーターたちは MCMC 計算の中で「ぴくり」とも動かない.
  • 計算は改善されぬまま 1830 研究室発. 札幌駅すぐ北側で研究室の忘年会. 2055 帰宅.
  • [今日の運動]
    • うんどう怠業, つづく
  • [今日の食卓]
    • 朝 (0730): 米麦 0.5 合. ハクサイ・ニンニク茎・アサリのカレー.
    • 昼 (1255): 研究室お茶部屋. 北大生協の海苔まき.
    • 晩 (1830): 研究室の忘年会. 炭火居酒屋 喝. 四川ふう (?) 鍋ものとか.

2006 年 12 月 20 日 (水)

  • 0830 起床. 朝飯. コーヒー. 0930 自宅発. 晴. 0945 研究室着.
  • 昨晩の帰宅前に走らせておいた苫小牧樹木シュート内の重量分配ベイズモデルの 60000 MCMC step 計算 (n.chains = 3, n.iter = 60000, n.burnin = 50000, n.thin = 25), 2400 秒ほどで終了. DIC = 16238.0. 収束はさすがによい, と言いたいところだけど 樹種 / パラメーターによってはまだまだ. 定式化とかに何かまだ問題が残存しているんだろうなぁ ……
mcmc20a

mcmc20b

  • 以前から気になっている MCMC 計算の小ワザに関する実験やってみた. たとえば樹高を WinBUGS にあたえるときに
    1. height <- d$height
    2. height <- d$height - mean(d$height)
    のどちらが良いか? という問題. このモデルの中で樹高は (一般化) 線形モデル的にあつかっているので原理的にはどちらでも同じ, ということになる. しかしながら 「MCMC 計算の収束の速さ」 に関していうと 2. が有利だと言われている. で, 実験してみると …… うーむ, やっぱり 2. の「中央化」わざを使ったほうが良いような気が……?
  • 宮田さんや甲山さんに結果を見せたりして説明などしているうちに …… どうもホオノキがアヤしいような気がしてきた.
mo
[疑惑の樹種? ホオノキ]
左の図は宮田さんデータで作図した葉重量 vs stem 重量. 上の図で「!」をつけてるのは「ぜんぜん収束してない (chain 間の差が大きい)」 をあらわしている.
結論からいうとホオノキを除くと MCMC 計算の収束がすごく良くなる.
さらにそのあとで判明したんだけど, 左の図中央上の「ヘンな一個体」を除くとホオノキをいれた計算でも まあなんとか収束する.

  • で, ホオノキを除外して全 12 樹種で計算してみると …… やはり MCMC 計算の収束が良くなった. こいつが原因だったのか.
  • 昼飯.
  • ここまでの計算で「樹高が高いほど葉重量への傾斜配分」 といった傾向がみつかりつつある. 計算改良つづく.
    • ホオノキ問題: じつは全 503 個体中のホオノキの「ヘンな一個体」 (非同化部は巨大なのに葉が少ない --- 葉っぱが脱落した?) のせいで MCMC 計算がおかしくなってたみたいだ …… おそるべし
    • 次の一手をみすえて, この「ヘンな一個体」だけでなく 葉面積が欠測になっている個体 (いろいろな樹種) もデータから除く
    • シュート内重量問題がシュートの重量に依存するか (つまりシュートの大小で重量分配が変わるか)? …… これを組みこんでみると, かなり明瞭に「小シュートほど葉重視」 とわかった (12000 MCMC step 計算に 800 秒ぐらい)
    • この計算でためしたんだけど, やはり線形予測子を構成する因子の ``x - mean(x)'' といった「中央化」小ワザは MCMC 計算 (の収束の速さ) にとってやはり重要そうな
    • DIC 比較: 「樹高ぬきモデルはどうか?」 と調べてみると, まあ DIC ってのもアヤしげなかんじだが, どうやら説明変数として「樹高」は必要らしい (DIC = 16350 vs 16937)
  • というかんぢで, 苫小牧 13 樹種のシュート内重量分配問題はだいたい解決してきた. ちなみに樹高依存性に関してはほとんど「樹種差」は見つからない …… というのも多少のずれは巨大な「個体差もしくは測定誤差」にうもれるからだ. 定数部分つまり葉重量に傾斜配分しがちかどうかといった 部分に関してはいくつか「樹種差」がみつかり, 13 樹種の事後分布をながめてみると, キタコブシ・ホオノキは葉重視で, シウリザクラは葉軽視である, と.
  • ベイズモデル的, もしくは J.S. Clark 御大すろーがん的な 「ある現象の全データを単一のベイズ統計モデルで」 戦略にもとづいて, このシュート内重量分配モデルに葉面積問題もくみこむ.
  • これは葉重量を葉面積と「厚さ」に分割する重量分割問題とみることもできるし, もっと単純に (測定値どうしの割算値なんぞを使わぬ) specific leaf area (SLA) 事後分布の 「直接」推定とも考えることもできる. さーて ……
  • パラメーター数が約 40 から 約 70 に増えたので 計算時間は 1670 秒 (約 28 分) に倍増. 収束は …… よろしくない. 葉面積は対数正規分布にしたがうと考えたほうがよさそうだ. 計算やりなおし.
  • どうも良くない. いったん葉重量 vs stem 重量分割にもどって, それぞれが対数正規分布と仮定してみたらどうか? これはこれで面倒を惹起しがちなモデリングなんだが …… うん, しかし結果をみると, やはり収束とか「誤差」の事後分布はこちらのほうが妥当だよな.
  • ということで, また葉面積 & SLA 組みこんで, 収束に時間かかるみたいだから長めの計算を命じておいて撤退. 1940 研究室発. 1955 帰宅. ばてた. 体重 70.8kg. 苫小牧べいづ痩せ? 晩飯の準備. 晩飯.
  • [今日の運動]
    • うんどう不足しーづん
  • [今日の食卓]
    • 朝 (0850): バゲット. 卵焼き.
    • 昼 (1300): 研究室お茶部屋. 食パン.
    • 晩 (2100): 米麦 0.7 合. レトルトパウチド牛丼 (小). ダイコン・ネギ・豆腐の味噌汁.