「ぎょーむ日誌」目次に戻る | KuboWeb top に戻る | twilog | atom

ぎょーむ日誌 2005-02-(21-28)

苦情・お叱りは，たいへんお手数かけて恐縮ですが，久保 (kubo@ees.hokudai.ac.jp) までお知らせください．

- 02/20 | 02/21 | 02/22 | 02/23 | 02/24 | 02/25 | 02/26 | 02/27 | 02/28 | 03/01 -

本日 (kubolog20050221) | 次の日 | 1 日前 | 7 日前 | 31 日前 | 365 日前 | top

2005 年 02 月 21 日 (月)

0730 起床．朝飯．コーヒー． 0830 自宅発．晴． 0840 研究室着．
0905 研究室発．正門横の学術交流会館へ．次の金曜日に二次試験あるんで，その監督ぎょーむ説明．書類ぱらぱらと見てるうちに，ぢつは二次試験も (センター試験とくらべると) 科目数が少ないだけで「朝から晩まで拘束」であることにかわりない，と気づいた．「国語」の試験なんていやはや 150 分もつづくのか．
0920 説明会うだうだと始まる．やはり「朝から晩まで」か．当日はどうやって時間つぶそうかな． 1010 終了． 1020 研究室もどる．
先月のセンター試験のもふくめて監督ぎょーむ説明会でわかったこと:
- 大学院重点化とか制度のひねくりあれこれあっても，依然として本邦では大学学部入試こそが (北大総長あいさつによれば) 「人生の一大事」 --- 受験者の周辺・大学・お役所・マスコミにおいて …… 大卒者をとる企業はどうなのか?
- とゆーことで大学事務部門では「入試課」は権力をもってる
- 試験監督者どもは社会常識から逸脱してる部分が少なくない，と入試課は認識している (この点についてはまったく同意する)
- にもかかわらず， (監督バイトとか傭うのではなく，おもてむきは「大学の一大事ですからせんせーがたに」とでもおだててみせつつ) このアブない連中を使い続ける理由は，招集の手間がラクな労働力であり，何年も使いまわせば多少の経験値をかせぐやつもいるかもしれない，と考えてるから
- とはいえ基本的には監督どもの学習能力には期待できないので，二次試験もセンター試験と同様の監督者用の「分きざみのスクリプト」がある
- 独立行政法人といったところで，大学は文部科学省の下っぱであることにかわりなく，センター試験だけでなく二次試験であっても各科目の受験者数を ほぼリアルタイム にて東京方面に報告せねばならない (この観測に測定誤差や記帳まちがいあると各所で平身低頭ぺこぺこ謝罪が必要になるらしい)
- なぜこれほどまでに「ある時刻における厳密なる受験者数」ごときが重視されるか? --- マスコミなヒトたちが現象のかかるうわっつらだけに偏執するからである (一方で，こういった意味不明に中央集権的な報告管理体制が疑問視されたりはしない)
- 大学・お役所としても「受験者数の厳密さが大事」という無意味な虚構につきあう --- かかる単純わーるどは気分的にはラクだから
えー，入試課の期待どおりに常識がおおいに欠落してる私は，監督ぎょーむ説明会はロクに聞いておらず，パラメーター推定問題とかをヒネくっておりました．アタマの中に未解決問題あれこれと貯めておくと，けっこうヒマつぶしには有効である．
で，そのつづきで研究室にもどってからも，統計学勉強にはまりこんでしまった．いつものごとく空間相関その他「相関あり推定」まわり，その生態学的なデータ解析における難問解決への応用なんだが ……
生態遺伝学・系統樹推定まわりを除くと，このあたりの研究はまだあまり発表されていない (しかし，まだ論文になってないだけで，日本をのぞく世界のあちこちでばきばきと現在進行中なのは疑いないところだ)．で，その数すくない文献をたぐってみると，またしても Jim Clark をダウンロードすることになってしまったり．
Clark, J.S, Mohan, J., Dietze, M., and Ibanezb, I. 2003. Coexistence: how to identify trophic trade-offs. Ecology 84: 17-31.
``Trophic trade-offs'' とかいってるけど，これは Acer rubrum (アメリカハナノキ，カエデのたぐい) と Liriodendron (モクレン科ユリノキ属のたぐい) の局所明るさ vs 高さ成長競争みたいなハナシのようだが．
で，これら二樹種の高さ成長に関していろいろなモデルを検討してるわけで ……
- 樹木ごとの個性ナシ，場所ごとのばらつきナシ，局所明るさにばらつきナシ (traditional model)
- 個性ナシ，場所ごとのばらつきナシ，局所明るさにばらつきアリ (Bayesian, method1)
- 個性ナシ，場所ごとのばらつきアリ，局所明るさにばらつきアリ (Bayesian, method2)
- 光応答に個性アリ (場所ごとのばらつきはこれで代替)，局所明るさにばらつきアリ (Bayesian, method3)
結果の図で示してやがるのは Maximum a posteriori (MAP) 推定値だろうな …… いや，後述する事後分布の平均値か?
モデル選択規準は deviance information criterion (DIC) でこれは Bayesian information criterion (BIC) を一般化したもの，とのこと．

本文の定義より deviance D(φ) と尤度 L(φ) の関係を D(φ) = -2 ln(L(φ)) とする．右辺の第一項は「deviance の事後分布」の平均値を二倍したもの，第二項はパラメーターの事後分布の平均値を使って計算した deviance …… まあ，つまりパラメーター平均値ふきんでのあてはまりがよくても，周辺尤度の分布があてはまりの悪いところを含んでるモデルはダメ，ということか．
このあたりの Clark な結果ながめてるうちに，私がなんでべいぢあんあまり好きでないのか，という理由がわかった …… このパラメーター推定値 (というか推定された分布) 使って，生物の動態シミュレイションとかやるときに，いちいち MCMC 法つかって Gibbs 分布の乱数を生成してやらんといかん，という面倒さにヨワってるんだろうな．まあ，ぢたばたしてみたところで，将来的にはべいぢあん推定を主につかってるんだろうけど．こうなりゃ，なんでもかんでもぎぶすですよ．
しかし full model を構成する確率分布のごちゃごちゃぶりにはアタマくらくらさせられる．各分布がなぜコレに選ばれたか，にはいちおう理由がありそう，と憶測できるけど (ここでは説明略) ……
1. 単純な「誤差」は正規分布
2. 局所明るさはふらつきこみでベータ分布
3. 局所明るさパラメーターセットの事前分布は二変量正規分布
4. 「成長速度最大の 50% となる明るさ」パラメーターの (無情報) 事前分布はベータ分布
5. 誤差の (無情報) 事前分布は inverse Gamma 分布
6. 局所明るさの平均ヴェクトルのハイパーパラメーターの (無情報) 事前分布は二変量正規分布
7. 局所明るさの共分散行列のハイパーパラメーターの (無情報) 事前分布は Wishart 分布 (6. と 7. で個体差をあらわしてるようだけどいまいちわからん)
…… これらすべてのかけ算が事後分布だ．なンとも楽しくきちがいじみた世の中になりつつあるではありませんか．
昼飯．本日は院生密度ひくい．
どうでもいいことだけど，上の DIC の定義式の画像ファイルを作るところでぢたばたする．
1. LaTeX ファイルを準備する (こんなの --- box size を指定せねばならぬところがまぬけ)
2. platex dic.tex
3. dvips -E -x 3000 -y 3000 dic.dvi -o dic.eps
  (以前は epsffit ワザ使って文字を拡大してたんだけど，それはヤメた)
4. convert dic.eps dic.png
べいづばて．お茶部屋にいくとなんだかアヤしげな相談やってるし．
1700 すぎからアカマツ問題にとりくむ．とりあえず，追加データに関しては処理プログラムは先日できてしまったんで，「残骸」たるシミュレイション関係の整理整頓やらねばならんわけだが ……
とりあえず，「押しこみさき」候補地のひとつ， Ecological Modelling の最新号の目次を特に意図もなくながめてみる．なンと冒頭の論文は，ここでもまたしても，またしても ``Bayesian'' だし ……
で，本日はすでにべいづにやられてるわけだし，もはや毒をくらわばとざっと目をとおしてみる …… こいつは (うさん) くせえッー (Speedwagon 氏談，椅子を蹴り飛ばしつつ)．ハイイログマうろうろする森林公園の保全のあだぷちぶ管理うんぬんとか書いてあるんだが，べいづはべいづでもひどく古びた主観確率むきだしのやつだよよん --- 現代的なべいぢあんはそのあたりをいかに巧妙に隠ぺいするか，がキモであり上述の Clark ごとき「七段がまえ」の確率分布などなどを準備するのである．しかるに，このあだぷちぶは主観確率のもとでの期待値みたいなのを計算してるだけ，というしろもののよーで．
いやー，さすがわ Ecological Modelling．こんなのでも掲載されんのか，と同誌の編集方針に勇気づけられました．しかし採否水準の事前分布 --- いやいやこんな凶々しいコトバはだめだ --- random effects の確率分布のばらつきは大きい，と仮定すべきだろう．
べいぢあん雑談．かとーさんと spam メイルフィルターのハナシをやってると，必然的にべいぢあんになる．なんとならば，多くの spam filter は Bayesian estimation によって spam かどうかを判定しているからだ．ところが，かとーさんがしぶとくしらべたところ， MacOS X についてる Apple Mail の場合， latent semantic analysis による spam 判定やってて，これはどうも Bayesian filter とは別モノらしい．
そして二人のハナシはいつのまにか「すぱむ業者になって金もうけをする方法」の熱心な検討にうつってしまっていた．
結局のところ，べいづべいづで半日おわってしまって 1945 研究室発． 2000 帰宅．運動．晩飯．
[今日の運動]
- エアロバイク 45 分間．
[今日の食卓]
- 朝 (0750): 米麦 0.8 合．タマネギ・卵の炒めもの．
- 昼 (1330): 研究室お茶部屋．米麦 0.7 合．トマト・ホウレンソウ・ブナシメジ・豆腐のソース．
- 晩 (2220): 米麦 1.0 合．トマト・ホウレンソウ・ブナシメジ・豆腐のソース．

本日 (kubolog20050221) | 次の日 | 1 日前 | 7 日前 | 31 日前 | 365 日前 | top

本日 (kubolog20050222) | 次の日 | 1 日前 | 7 日前 | 31 日前 | 365 日前 | top

2005 年 02 月 22 日 (火)

0820 起床．朝飯．コーヒー． 0930 自宅発．雪． 0940 研究室着．
なんとなく雑用書類ぎょーむを片づけてしまった．
アカマツ論文原稿，ぶんかつりすとら作業のつづき．
…… だけで午前中修了．昼飯．
1300-1500 生態遺伝の荒木さんからスズランの空間構造ありデータ (おもに繁殖まわり) について色々と教えていただく．たいへんに興味ぶかい．これに関するデータ解析助言者は島谷さんなんで，ゑくせるの solver で最尤推定してしまうという英雄的努力にも感銘うけるところではあるんだが (計算にすごく時間かかるそーで)．
1500 講座セミナー，本日は M1 北村君で阿寒調査地のアカエゾマツ・トドマツのハナシ．トドマツに比べてアカエゾマツが林冠から突出する，ってのは面白いとはおもうんだが …… これってなかなか調査の難しいハナシだと思うんだけど．樹高成長が何で決まるのかはナゾだし．さらに，ハードウェア好きの甲山さんが買ってしまったどりるのたぐいがこういう研究に役にたつのかしらん? まあ，アカエゾマツ・トドマツについては他人がとったデータも再利用可能かもしれん，というのは利点だけどね．
日数の計算方法． Perl だとたとえば perl -MDate::Calc -de 0 で interactive interface (debugger) ひらいて，
```
DB<1> print Date::Calc::Day_of_Year(2005, 3, 27) - Date::Calc::Day_of_Year(2005, 2, 22)
33
```
とすればよいし (あるいは Date::Calc::Delta_Days() でもよい)， R で同じようなことをやろうとすれば
```
> library(chron) # chron package の読みこみ
> julian(3, 27, 2005) - julian(2, 22, 2005)
[1] 33
```
となる (後期: difftime()，翌々日に記載)．ということで，大阪大会まであと 33 日とわかったので，私をいつのまにか発表の共著者として登録した寄生師弟 (これは俗世を捨て人里はなれた山奥で parasitoid 研究の道にふみこんでる出家とその弟子，という意味である) にメイルなど書いてみる．来週あたり苫小牧出張か?
お茶部屋で行われていた屋久島サンプリング計画相談になんとなくまじってしまう …… なんというか，葉齡分布のハナシも生存時間解析に帰着できるよーな気がしてきた．もしも樹種差などというものがなく，せいぜい個体差があるぐらいという状況であるならば．
2150 研究室発． 2200 帰宅．晩飯．
[今日の運動]
- 腹筋運動 30 × 3 回．腕立ふせ 5 × 3 回．
[今日の食卓]
- 朝 (0850): 食パン．タマネギ・海藻のスープ．
- 昼 (1230): 研究室お茶部屋．食パン．トマト・ホウレンソウ・ブナシメジ・豆腐のソース．
- 晩 (2400): 米麦 1.0 合．ジャガイモ・タマネギ・ニンジン・海藻・煮干の味噌汁．

本日 (kubolog20050222) | 次の日 | 1 日前 | 7 日前 | 31 日前 | 365 日前 | top

本日 (kubolog20050223) | 次の日 | 1 日前 | 7 日前 | 31 日前 | 365 日前 | top

2005 年 02 月 23 日 (水)

0750 起床．朝飯．コーヒー． 0930 自宅発．雪． 0940 研究室着．
アカマツりすとらのつづき．小林さんから光合成論文のほうの Table 作りなおしが提案されてきたんでそっちに取り組んでんだけど，「ゆーい差」だせとかで鬱々たる気分である．ゆーい差って，さかさに振っても全 8 個体しかいないんだが …… ところで，人間の「ごまかし」「いんちき」「邪道な方法」を創作する能力はまさにこういう瞬間に発動されたりするもので，私もこの「あまりにも少ない標本数」というのを逆に悪用できる可能性に気づいた．つらつらとそのアカマツ観測データ表をみなおしてるうちに，「8 個体を 4 vs 4 に分割するやりかた」は 8! / (4! 4!) = 70 とーりしかない．それだけしかないのであれば，
- 不等分散な状況のもとで
- 「検定統計量」に関する分布を仮定しない
- 最尤推定法
が使えるんでは，と気づいた．
要するに尤度比検定なんだけど，尤度比の分布に関してなんちゃら近似を導入するのではなく， 70 とーりの尤度比をことごとく算出し， 厳密なる (そう，無意味に厳密なる) p-値とやらをつきつけてやろう，という試みだ． Fisher の正確確率検定 (FET) の尤度比検定版，というところだろうか (ま，いつものごとくどこかの誰かがすでに考えだしているんだろうけど)．
さて，少し冷静に再検討すると …… このような状況 (標本数がぜつぼー的にたりん) での尤度比検定わざとして， parametric bootstrap (PB) 法というのがある，と以前に粕谷さんから教えていただいたことがある． PB 法は帰無仮説として推定された確率分布に標本点集団を生成させる (bootstrap する) というやりくちである．ふーむ，ここらに相違点あるわけで ……
FET 的な尤度比検定，なる考案は「標本の可能なすべての組みあわせこそが『母集団』である」という FET 的な発想にもとづいている．いっぽうで， PB 尤度比検定は「帰無仮説 H₀ として指定された確率分布が母集団で，そこから得られる乱数セットが H₀ の無作為標本である (たまたま観測された標本点の組みあわせごときには左右されない)」ということだよな …… 両者は大標本のもとでは一致するよーな気もするんだが (ホントか?)，それはともかく，うーむ …… 現代的な統計モデルの世界では PB の仮定のほうが妥当な気もする．とくに，いまの場合，カウントデータではないんで状態は無限にとりうるわけだし．
とゆーことで，あっさり方針転換して parametric bootstrap でいくことに．これってやっぱり R でやるほうがラクだよな．しかしアカマツデータは， Perl でかなり念いりに作ってしまった (つまり他システムとの協調性をあまり考えてない) データ管理システムの中に隔離されちゃってるんだよね．さて．
…… と思ったら，すでに自分で「データとりだし用 Perl スクリプト」は構築していた …… しかも一年以上前に! これをさらに昨年 5 月 17 日ごろにも改良してるよーだ．いやはや，こんなに長びかせてはいけませんなぁ．
昼飯．けっこう雪ふってる．
アカマツりすとらの続き．さて，データとりだしスクリプトが見つかったのはいいんだが …… さて， parametric bootstrap 尤度比検定と自動作表をどう融合させればいいのか?
といったムズかしい問題に懊悩するのはヤメて，とりあえずあとさき考えずに PB 問題に取り組むことに．
あるデータがあったときに， R を使ってこれに正規分布 (あるいはいろいろな確率分布) をあてはめるにはどうしたらよいか? たぶんまっとうな答えは， MASS package の fitdistr() を使って，
```
> x <- c(1, 2, 3, 4)
> fitdistr(x, "normal")
    mean       sd   
  2.50000   1.11803 
 (0.55902) (0.39528)
```
といったあたりだろう．さて，これをもしこういうふうに推定してたら，
```
> f <- lm(x ~ 1)
> f
Call:
lm(formula = x ~ 1)
Coefficients:
(Intercept)  
        2.5  
```
「いかがわしいやつ」と怪しまれることだろう．しかしながら，このやりかたにも多少の利点はある．
```
> logLik(f)
`log Lik.' -6.122 (df=2)
```
このようにお手軽に最大化対数尤度を得られる，ということだ．
「にわか Unix server 管理者」を押しつけられた小林さんより緊急お電話 help が．苦闘しておられるよーで ……
セミナー前にひととーり parametric bootstrap 尤度比検定の関数定義ファイル pb.R かけた (後記: このプログラムではまだ十分に「不等分散」な状況をあつかえていない)．動作はこういうかんぢで (計算時間: 試行回数 1000 で 12-13 秒ぐらい, ThinkPad X31):

> source("pb.R")
> pb <- pb.lrt.normal(c(1, 1, 2, 2), c(3, 3, 4, 4))
> plot.pb(pb, main = "parametric bootstrap", xlab = "log LR", ylab = "Prob")

1630 より本年度最後の Trendy セミナー，本日は道立林試の真坂さん，シラカンバとか風媒花の性配分について．現象はすごくおもしろいが，こういう「もってる資源量ことなる個体たち」の正面激突闘争のゲイム理論的なとりあつかいは難しい (金もちが勝つにきまってるから)．で，それを計算できるよーにしようとすると，いろいろとヘンなことになる，とわかった．
お茶部屋でいろいろ話してから 1930 研究室発．吹雪． JR 札幌駅北口で本日の講演者を囲む懇親会．大学院生たちと道立林試のハナシなどなどいろいろとうかがう． 2250 帰宅．
[今日の運動]
- いかん，運動休養日か ……
[今日の食卓]
- 朝 (0830): 米麦 0.7 合．ジャガイモ・タマネギ・ニンジン・海藻・煮干の味噌汁．
- 昼 (1310): 研究室お茶部屋．米麦 0.8 合．ジャガイモ・タマネギ・ニンジン・海藻・煮干の味噌汁．
- 晩 (1940): JR 札幌駅北口の居酒屋「うみぼうず」でいろいろと．

本日 (kubolog20050223) | 次の日 | 1 日前 | 7 日前 | 31 日前 | 365 日前 | top

本日 (kubolog20050224) | 次の日 | 1 日前 | 7 日前 | 31 日前 | 365 日前 | top

2005 年 02 月 24 日 (木)

0800 起床．朝飯．コーヒー． 0850 自宅発．晴． 0900 研究室着．
1000 より Life History Evolution in Plants ，本日は立花さん担当の第 4 章前半で，植物の生活史形質の量的遺伝学．といっても QTL とか新しい話題ではなく，相加遺伝分散を計算したりするような基本なハナシだ．しかし多くの院生たちは集団遺伝学にはあまり親しんでいないので，ばてぎみのようである． 1230 来週に続けることにして本日は終了．
1240 研究室発．自宅にもどって昼飯．ついでに洗濯． 1340 研究室もどる．
膠着とでもいうべき状態におちいりつつある某誌査読問題．これは私がごねたりしてハタ迷惑なことをやっているわけではなく，
- 査読者 (私) はこれってまともそうなデータなんだから，解析もちょいちょいと直せばいいぢゃん，と懇切丁寧なる解説つきで提案 (簡単に直せるだろうから reject しなくてもよいと判断している)
- 著者は直そうとする意志はあるのだが，データをどう解析すべきかいまいち理解できておらず --- そしてここがちょっと変わっているのかもしれないが --- 統計ソフトウェアの出力が理解できなかったときに，てきとーにあちこちの数値を copy & paste して Table をでっちあげてしまう，という病癖がある (私もあやうくニセ Table にだまされるところだった)
- 編集長は，査読者の指摘はもっともらしそうだと判断していて，「でっちあげ作表」著者たちを困ったやつらだと考えているが，切り捨てることができずに「ちゃんと修正しろ」と提案をつづける (で，そのたびに私のところに相談メイル・電話などがくる)
…… とゆーにらみあいが続いているのである．本日もこれに 3 時間以上を費してしまった (ナゾ解析を解読するために)．いやはや．
群馬大の中澤さんのペイジで紹介されてるところによると R での日数計算は単純に difftime("2005-3-27","2005-2-22") でよい，とのこと．うーむ，知らなかった ……
1930 研究室発． 1950 帰宅．運動．晩飯．
明日は朝から晩まで試験監督である．
[今日の運動]
- エアロバイク 47 分間．
[今日の食卓]
- 朝 (0830): 米麦 0.4 合．ジャガイモ・タマネギ・ニンジン・海藻・煮干の味噌汁．
- 昼 (1250): 米麦 0.7 合．ジャガイモ・タマネギ・ニンジン・海藻・煮干の味噌汁．
- 晩 (2200): 米麦 0.9 合．ジャガイモ・ネギ・ブナシメジ・豆腐・海藻・煮干の味噌汁．エノキダケ・卵の炒めもの．

本日 (kubolog20050224) | 次の日 | 1 日前 | 7 日前 | 31 日前 | 365 日前 | top

本日 (kubolog20050225) | 次の日 | 1 日前 | 7 日前 | 31 日前 | 365 日前 | top

2005 年 02 月 25 日 (金)

0700 起床．朝飯．コーヒー． 0800 自宅発．曇． 0820 北大入試 (二次試験)，第三試験場本部着．理学部で文学部入試やる．建物のなかでけっこう道にまよってしまった．うう．
予定では 0900 試験開始，だったんだが …… これは最終的には二時間おくれ の 1100 開始となってしまった．以前から北大を何かで困らせてやろうと画策していたらしい JR 北海道が，ちょうど受験生が移動する時間にあわせて札幌駅ちかくで貨物列車を故障させて，復旧まで二時間をついやし，合計 50 本以上の列車を運休させてしまったためである．
われわれ傭われ監督どもの拘束時間も長くなったのは，まあガマンできるとして …… 受験生どものうけた被害は甚大なものである．いちばん気の毒なのは，試験終了後に帰宅するつもりだった連中かな．本来なら 1740 ごろに終わるはずだったんで，本日中に飛行機で内地にもどったり鉄道で道内遠隔地に帰れるはずだったのに，それが不可能になったわけで．
つまり「宿なし」受験生が最大で数百人発生するということだ (本日の総受験者数 5700 人超，そのうち半分ぐらいが道外からだそーで)．さて，入試本部とやらがどう対応するか，なんだが …… けっきょく北大生協旅行部に丸なげした (切符の対応と宿さがしの手配)．最善の策ではないけど，まあ私が邪推してたよりはかなり対応が速かった．しかし，航空券だのはなんとかなるとして，宿泊はどうなったのかねぇ ……
ともあれ 1100 より試験開始．これから皆さん空腹に耐えて「国語」 150 分間に挑むわけだ．受験生 68 人の大きめの教室に監督三人．私はいちばん下っぱで気楽である．ヒマなので一時間以上を国語の解答に使ってみる．現代文は三問．長文だけどこれはまあラク．こういう試験は主観を排して文章を情報量おとさずに圧縮できれば (良い回答ではないにしても) まちがいではない回答文が作成できるからだ．古文は難しかった．じっくり読めば大半は正確に読み取れるんだけど，古語の語彙が貧弱で重要な一文の意味がとれない．「やさし」ってなんだっけ? (あとで調べたら「優美である，上品ですっきりしている」だった)．漢文は最初に一読したときにまるっきりわからなくてアセった．しかし語注をアタマにいれて再読すると，訓読のやりかたもしだいに思い出されてきてほぼ完全に読解できた．たまたま漢文の解答用紙 68 枚を回収するついでにぱらぱらと見ることになったんだけど，漢文だけなら私は北大文学部によゆーで入学できそう．
1330 に終了．昼飯．
1440 から地理・日本史・世界史の試験 (受験生が選択解答するのはこれらのうちひとつ) 90 分間．また問題ぜんぶ見てみる．世界史はやたらと雑学的というか， ○○条約だのなんちゃら王朝の首都名だの，ともかく固有名詞を答えさせる問題ばかりだった．日本史はそれよりマシそうなかんぢだけど，やはり半分もわからなかった．地理は得点でいえば八割以上とれる，というかんぢ．私は高校生のとき地理をやってた，というのもあるけど，考えればわかる問題が多いからだ．地形図の読み取り，自然地理学の知識はいまの商売でも使うことだし，人文地理学についても現代社会の常識 (車の国別生産量の推移の概要とか) がわかってれば正解がすぐに推量できるからだ．
各試験中の時間の半分は，統計学問題の検討に費している．監督ぎょーむ中に読書などしてようもんなら，あとでお怒りの電話などをたくさん頂戴することになるらしいが …… しかしながら，そこらへんに散乱してる監督ぎょーむ反故紙のウラに数式なぞ静かに書きつづってるぶんには誰も文句は言わんだろー，ということで．
おかげで，空間相関のある logistic 回帰がらみの問題の定式化について，かなり整理できた．同時に私がこの問題のホントにめんどうなところをまだ理解できてない，ということがわかった．自分であれこれと考えてみた「手ぬき推定法」は整理してみると一種の maximum pseudo likelihood 推定にすぎない，と理解できたのである．さーて，どうしたもんかのう ……
1740 から最後の試験，外国語 90 分間．もちろん大半は英語をうけるわけだが …… 私はなぜかしらドイツ語の試験監督に指名されてしまった．ドイツ語受験専用の試験場に受験者一名．監督は私と監督 helper の事務員ひとりである (室内監督は原則として教員だけに押しつけることになってるけれど，ここでは例外的な措置になってる)．大学 1-2 年のときの第二外国語はドイツ語だったんで問題文全文よみに挑んでみたのだが …… うーむ，ところどころ知ってる単語はあるのがわかる，というだけ．けっこう長文ばかりだし難しくないか? しかもその受験者が問題文の不備を発見してくれたので，問い合わせに走ったんだけど，これの対応がむちゃくちゃに遅い (すごく簡単なミスだったのに)．やれやれ． 1910 終了．事務連絡などのため，そのドイツ語受験者一名ともどももとの試験場にもどる．
北大ではばかげたことに，最後の試験の解答用紙の回収が終了しても受験生・監督は拘束されたままなのである．事務官どもの「解答用紙枚数チェック」とやらが終了して，後日に自分たちの責任だけはけして追及されることはない，と確信できるその瞬間が到来するまでは …… やることが何もなくなり脱力しきった受験生 68 名と試験室内で無言かつ無意味なにらみあいを 30 分以上にわたって継続する (まあ，私は例によって数式らくがきなぞやってたわけだが)． 1945 釈放． 1955 研究室着．
2045 研究室発． 2100 帰宅．晩飯．
[今日の運動]
- 腹筋運動 30 × 3 回．腕立ふせ 5 × 3 回．
[今日の食卓]
- 朝 (0740): 米麦 0.7 合．ジャガイモ・タマネギ・ニンジン・海藻・煮干の味噌汁．
- 昼 (1350): 試験場本部 (理学部会議室) で試験本部用弁当．北大生協かなにかの幕の内弁当で，推定原価 250 円，推定売価 800-1000 円といった内容．
- 晩 (2300): 米麦 1.0 合．ジャガイモ・タマネギ・ニンジン・海藻・煮干の味噌汁．

本日 (kubolog20050225) | 次の日 | 1 日前 | 7 日前 | 31 日前 | 365 日前 | top

本日 (kubolog20050226) | 次の日 | 1 日前 | 7 日前 | 31 日前 | 365 日前 | top

2005 年 02 月 26 日 (土)

0900 起床．朝飯．コーヒー．
昨日，試験監督ぎょーむの最中に整理した空間相関推定の問題について再検討する …… EM アルゴリズムがいちばん無難そうに思える．しかし，これを Bayes 推定するならどうすべきなのか，そのあたりいまいちよくわからん．対応関係が気になる．
1215 自宅発北大構内走．晴． 1310 帰宅．体重 75.0kg．うーむ，この体重の増えかたは …… 食べすぎというより，よけーな筋肉がついてる，と考えたほうがわかりやすいような気がするんだけど．どうなんだろ．昼飯．
1640 自宅発．曇．札幌駅まわりの本屋をふらふらと． 1720 研究室着．
えーと， spamassassin に手動で学習させんのは sa-learn --spam dir (dir は spam の入ったディレクトリ) とすればよさそーで．
午前中にひっかかったべいぢあん問題，答えのひとつがわかった． Gilks (1992) の adaptive rejection sampling (ARS) というアルゴリズムだ …… 内容を理解すんのに数時間を使ってしまった．いや，それほど難解なものではないんだけど，「これでホントに計算できるのか?」というところでツマってしまって．いまやその手口は把握できた …… と思うわけだが，それでもなおすごくめんどくさいものに思える．未知確率分布を「包みこむ」 (というところからしてうさんくさいのだが) 凸包を iterative にややこしくしつつ乱数を生成させる，という手法．よくもまあ，こんなの考えつくもんだよ．
実際に使われてるのかしらん，と調べてみると …… R の MCMCpack の説明を見なおしてみると，こいつは計算のしんどい急所では Metropolis sampler を使ってるよーだ (ポテンシャルを対数化して計算するのかしらん?) …… ああ， ARS のめんどさを考えると，もういっそのことめとろぽりすで，と考えるのもたしかにもっともなことだ．状況に応じて Gibbs sampler も使ってるな．再生性のある確率分布なら，それもいいだろうね．
どうやら， ``Bayesian inference Using Gibbs Sampling'' あるいは BUGS あるいは WinBUGS として著明なべいぢあんソフトウェアは Gilks 近傍で開発されてるだけあって， ARS を採用してるよーで．
以上をまとめると，べいづ推定の途中でめんどうな乱数発生が必要になった場合に，とりうる手段としては，
- その部分に再生性あるんならまとめてしまって Gibbs sampler
- Adaptive rejection sampler
- Metropolis sampler
などなどを使え，ということのよーで． Logistic なモデルだと， ARS か Metropolis sampler しか使えん …… たいていのポアソン分布モデルとかでも同様かも．
2130 研究室発． 2140 帰宅．晩飯．
[今日の運動]
- 北大構内走 55 分間．
[今日の食卓]
- 朝 (0930): 米麦 0.7 合．ジャガイモ・タマネギ・ニンジン・海藻・煮干の味噌汁．
- 昼 (1400): 蕎麦．
- 晩 (2240): 米麦 0.9 合．ジャガイモ・タマネギ・ニンジン・海藻・煮干の味噌汁．ニラ・卵の炒めもの．

本日 (kubolog20050226) | 次の日 | 1 日前 | 7 日前 | 31 日前 | 365 日前 | top

本日 (kubolog20050227) | 次の日 | 1 日前 | 7 日前 | 31 日前 | 365 日前 | top

2005 年 02 月 27 日 (日)

0700 起床．朝飯．コーヒー．洗濯など． 0845 自宅発．晴． 0855 JR 札幌駅発． 0920 北広島で快速から普通に乗り換え．
0958 JR 苫小牧着．ここまで 1410 円．運動がてら苫小牧市内を歩く．太平洋側なので札幌 (日本海側) より積雪量はすくない． 1050 苫小牧研究林庁舎着．
みなさん湧別に出はらってしまって，人口密度がきわめて低くなった庁舎内で，平尾君と parasitoid モデリング相談．昼飯前は， MCMC 法応用の「将来計画」でオワってしまった．まあ，アタマの中は整理できたけど．
昼飯後に平尾君の計算プログラムの解読． R で書かれた 1000 行ちかい巨大プログラムなんだが …… 「ここ重複してるでしょ」「これは不要」「これは別プログラムとして分離分割」と 3 時間ばかりのあいだに， 300 行弱に削減できた．
平尾君はじつによく R のあれこれ知ってるのだが，村上さん下請けぎょーむで多忙らしく自分の計算プログラム改良してるヒマなし …… 状態なのかしらん? ともあれ，計算手順を解明していく過程で，どういう意図の計算だったのかがよくわかってきた． randomization などのやりかたに改良が必要，と判明．単純化する方向なんで， 6-8 時間かかっていたという計算時間が，かなり短縮されることになりそうだ．
平尾君に車で送ってもらって 1925 JR 苫小牧着． 1939 普通にのって同発．車中， parasitoid 計算についてまとめる． 2010 千歳で快速に乗り換えて 2042 JR 札幌駅着． 2110 帰宅．晩飯．
[今日の運動]
- 苫小牧原野雪中踏破 50 分間．
[今日の食卓]
- 朝 (0720): 米麦 0.7 合．卵炒飯．海藻スープ．
- 昼 (1320): JR 苫小牧駅南の (いたりあ料理屋?) ヴァンカムでトマト・モツァレラチーズのスパゲッティー (840 円)．エスプレッソ (157 円)．もつぁれらだのえすぷれっそだの，何年ぶりだろうか．
- 晩 (2250): 米麦 1.0 合．ハクサイ・ネギ・タマネギ・ショウガ・ホタテの炒めもの．海藻スープ．

本日 (kubolog20050227) | 次の日 | 1 日前 | 7 日前 | 31 日前 | 365 日前 | top

本日 (kubolog20050228) | 次の日 | 1 日前 | 7 日前 | 31 日前 | 365 日前 | top

2005 年 02 月 28 日 (月)

0820 起床．朝飯．コーヒー． 0920 自宅発．晴． 0930 研究室着．

parasitoid データ解析プログラム，再構築の検討．意外と観測数は多くはないんだよなぁ． ……

> tapply(d$Samplesize, d$Sp, sum)
  Am   Ap  Cac   Mk   Mo   Qc   Tj 
 345  225  123   81  139 3000  180 
> tapply(d$N.P, d$Sp, sum) # parasitoid 発生件数
  Am   Ap  Cac   Mk   Mo   Qc   Tj 
 148   91   29   26   57 1072   59

わりざん値図など作ってながめてみる．

何か意味ありげな傾向ありそうな気がするかもしれないが，これはわりざんが原因のニセ相関の一種だ．近傍の被寄生個体数が増大すれば確率が増大すんのはあたりまえなんで．で， MPLE randomization で確認しようとしてんのは， maximum pseudo likelihood estimates (MPLE) にこの「あたりまえ」よりさらに逸脱した傾向があるかどーか，というあたりなんだが ……

いつも失念してしまう R のぎょうれつ演算．ということで，これまたいつものごとく例をつくって思いだしてみる．

> M <- sapply(1:3, function(i) c(i, i, i))
> M # 行列
     [,1] [,2] [,3]
[1,]    1    2    3
[2,]    1    2    3
[3,]    1    2    3
> v <- c(1, 2, 3) # ヴェクトル
> v * M # ヴェクトルの各要素を各行にかける
     [,1] [,2] [,3]
[1,]    1    2    3
[2,]    2    4    6
[3,]    3    6    9
> M * v # 上と同じ
     [,1] [,2] [,3]
[1,]    1    2    3
[2,]    2    4    6
[3,]    3    6    9
> t(v * t(M)) # 各列にかけたければ……
     [,1] [,2] [,3]
[1,]    1    4    9
[2,]    1    4    9
[3,]    1    4    9
> M %*% v # 内積 (結果は行列に格納されている)
     [,1]
[1,]   14
[2,]   14
[3,]   14
> v %*% M # v と列ヴェクトルの内積を並べたもの，というか
     [,1] [,2] [,3]
[1,]    6   12   18

以上から，線形予測子の他樹木個体の影響の部分は t(s * t(W)) %*% d とすればよい，とわかった．ここで s は species identity vector， W は距離荷重行列， d は宿主 (host) の密度 vector．
と進捗がおそいわけだけど，昼飯．
午後も parasitoid データ解析ぷろぐらみんぐ．
三浦さんが事務処理用 ThinkPad の Norton AntiVirus (NAV) 不調を報告してこられたんで …… いろいろ調べたんだがよくわからず，結局 NAV が命令しやがるとーりにあんいすとーる & いんすとーるによる修理 (なんてゐんどーづ的な!) をすると直ってしまった．不毛なる待ち時間のあいだに，テプラで文字サイズを変更するにはどうしたらいいかを解明して，こちらのほうが NAV どたばたより感謝されたよーな．
ぢりぢりと進捗．空間構造ある局所密度計算あれこれやって， maximum pseudo likelihood estimate (MPLE) だすところだまではできた．時刻は 1710．
らんだまいぜいしょん関数に着手．この問題では樹木ごと動かすのと， host だけ動かすのがあるんだが …… とりあえず，ラクな樹木ごと移動をつくってみるか．
1800 どーにかこーにかできた．試験運転．
```
> system.time(r <- randomization.tree("Am", d, ldm, n.trial = 1000))
[1] 160.63   0.01 160.64   0.00   0.00
```
345 個体の 1000 回試行で 160 秒か．全樹種 100 回試行だと ……
```
> system.time(sapply(unique(d$Sp), function(spc) randomization.tree(spc, d, ldm, n.trial = 100)))
[1] 117.75   0.02 118.01   0.00   0.00
```
二分ぐらいか．ということは 1000 回試行だと 20 分ぐらいだな．これが 4 season で 1.33 時間の，さらに host いれかえ randomization も必要だから …… 必要な予想合計計算時間は 3 時間弱，ぐらいかな．それほど高速化されてない．せいぜい二倍ぐらいのもんか．
明日は博士課程試験で，学外からの受験者は修論の内容など発表せんといかんわけだが …… え，こちらで PC を用意しろ，と．しかもちょっと古めの PoorPoint ファイルが見えるようにせんといかんそーで．うーむ，今日はゐんどーづ雑用が多い．講座内で自由に使えるノート PC といえば …… 三浦さんの ThinkPad かな．しかしこれには件のソフトウェア入っていない．なンとかならんか，と検索 …… 見つけた， PowerPoint Viewer2003．インストール．ファイルが見えること確認．一件落着．
樹木いれかえよりさらにめんどくさい「host いれかえ randomization」を実行する関数かけた．時刻は 1955．試験運転すると
```
> system.time(sapply(unique(d$Sp), function(spc) randomization.host(spc, d, ldm, n.trial = 100)))
[1] 166.58   0.00 167.27   0.00   0.00
```
うーむ，やはり試行回数は同じでもこちらのほうが時間かかってしまう．データやりとりを削って overhead を軽くしてみる (が，ぢつは R 内部処理がどうなってるのか，いまいちわからん)．
```
> system.time(sapply(unique(d$Sp), function(spc) randomization.host(spc, d, ldm, n.trial = 100)))
[1] 153.01   0.06 153.82   0.00   0.00
```
…… ほんの少しだけ速くなったか．うう．

さらに少し改善をくわえて， A801 室の Dell 機 (Pentium4 2.4GHz) にプログラムを送り，試運転してみる．

> system.time(sapply(unique(d$Sp), function(spc) randomization.tree(spc, d, ldm, n.trial = 100)))
# trial  Ap: [0][100]
# trial  Qc: [0][100]
# trial  Am: [0][100]
# trial  Tj: [0][100]
# trial  Mo: [0][100]
# trial Cac: [0][100]
# trial  Mk: [0][100]
[1] 127.06   0.77 128.02   0.00   0.00

ふーむ，さすがに ThinkPad X31 (PentiumM 1.6MHz) よかは速いよね (2.5 分 → 2 分)．

入出力まわりを整備．調べるべき全ての場合に関して上記の関数たちを呼び出して，その計算結果を R オブジェクトとして保存する，という部分を作ってしまう． R おぶぢぇくとってえらく「かさばる」なあ． save(..., compress = TRUE) を指定，少しはちぢんだ．
とりあえず， 4 時間弱かかりそうな計算を Dell 機に命じておいて，本日は撤退．思ったより速く主要計算部分がひととーり構築できた．まだまだ手なおし必要かもしれんけど．
高速開発ばて． 2130 研究室発． 2140 帰宅．晩飯．
[今日の運動]
- 腹筋運動 30 × 3 回．腕立ふせ 5 × 3 回．
[今日の食卓]
- 朝 (0850): 米麦 0.5 合．ハクサイ・ネギ・タマネギ・ショウガ・ホタテの炒めもの．海藻スープ．
- 昼 (1320): 研究室お茶部屋．米麦 0.7 合．ハクサイ・ネギ・タマネギ・ショウガ・ホタテの炒めもの．
- 晩 (2240): 米麦 1.0 合．ダイコン・ハクサイ・海藻・豆腐・さばぶしの味噌汁．

本日 (kubolog20050228) | 次の日 | 1 日前 | 7 日前 | 31 日前 | 365 日前 | top

- 02/20 | 02/21 | 02/22 | 02/23 | 02/24 | 02/25 | 02/26 | 02/27 | 02/28 | 03/01 -

KuboLog | KuboWeb