ぎょーむ日誌 2003-08-11
2003 年 08 月 11 日 (月)
-
0700 起床.
朝飯.
コーヒー.
0820 自宅発.
曇.
0830 研究室着.
-
ぱいぷ樹木はいったんおいて,
苗場山
統計学モデリングを検討してみる.
-
まずはあまり得意ではないカテゴリカル,
というか「分割表」の統計モデリングの復習.
Alan Agresti
のカテゴリカル解析本.
はい.
分割表に対する対数線形モデルと
応答数二項分布な logistic モデルが同等である,
と
……
-
で,
さらに読んでいくとハナシはよく考えねばならん,
と気づいた.
なるほど両者は形式的には同等である.
しかしモデリングの意図は異なっているんでは?
分割表に対する対数線形モデルにおいては,
でてきた数字のいずれもが応答変数であると同時に説明変数でもある,
というけったいな特性がそなわっている
(後記: ……という説明はややわけわからん
……下の分割表の例をみればわかるように,
じつはモデル解釈の面においても両者はほとんど差がない).
これはどういうモデルを考えているのか?
いっぽうで logistic (二項分布) モデルは
与えられた値のうち,
これは応答変数で残りは説明変数というよーな区分が必須である.
-
このあたりは,
(具体例としてあげられている)
やんきー高校生の喫煙・飲酒・まりふぁな
三項目のやってる・やってない調査データのモデリングを見ると
わかってくる.
これは対数線形モデルを使った解析が妥当なんだろう.
つまり,
てきとーに集めた高校生どもに対して
上記三項目やってんのかどうかを尋ねて
(つまり喫煙・飲酒・まりはなの全てが確率変数としてあつかわれる)
対数線形モデル化,
オッズ比なるもの調べて,
たとえばまりはなやってるという条件のもとでの
喫煙・飲酒の独立性とかを調べるわけだ.
-
それに対して,
たとえば飲酒やってる・やってないを
logistic (とか何か) 関数で表現して,
喫煙・まりはなを説明変数として線形結合してその関数にほうりこんで
応答あり・なしの個数を二項分布モデルで説明して
因果関係を推定しようとするのが
logsitc モデル (回帰) ということになる.
-
つまり,
分割表に対する対数線形モデル,
それとも logsitc モデル
これらのうちどちらを使うかはデータの性質と目的に依るわけで.
問題の苗場山は logsitc モデルを使うべきなんだろう.
基本的には.
なぜかというと林業試験地はやんきー高校生ではないから
(たぶん).
施業処理なんちゃらをやった・やらないの個数は
確率変数ではなく人間が数をそろえてるわけで.
-
とはいえ,
ある処理をやった区画に特定の樹種 X が
(もともと) いる・いない,
ってのは確率変数だし.
-
よくわからんので,
こころみに分割表なるものを書いてみると
(分割表とかまったく好きではないんだが)
……
(ある樹種について) |
応答 |
|
あり |
なし |
処理 A |
あり 処理 B |
あり |
YAB |
NAB |
なし |
YA- |
NA- |
なし 処理 B |
あり |
Y-B |
N-B |
なし |
Y-- |
N-- |
-
こう書いてみると,
なんとなくふつーの三元分割表っぽいな.
とゆーかそのものなんだけど.
しかし同時に
分割表をきらいになるキモチがますます昂じてくるわけだが.
-
「分割表に対する対数線形モデル」ってのは
Y**
だの
N**
だのがポアソン分布から得られた確率変数として,
その期待値を
exp(定数 + 処理A + 処理B + 応答)
とか書いてしまって
(線形モデルに 応答
が入ってるところが特徴)
この 4 パラメーター推定値を
最尤推定法で計算してしまう
(めんどうモデルの好きなヒトは交互作用とかも入れる),
というもの.
ふーむ.
たしかに「処理」が
(Y** + N**)
という個数を決めていても問題ないな.
-
もちろん推定値のずれは個数のかたより反映するはずだが.
-
でもやっぱり logsitc なモデルで
パラメーター推定したりするほうがふつー,
という気がするんだけど.
応答あり・なしの確率が
1 / (1 + exp(-z))
にして
z = 定数 + 処理A + 処理B
とか.
ほら,
何が「応答」なのかあらかじめわかってる場合には,
こっちのほうがすっきりしてるぢゃん.
交互作用なんぞというものを考えるときも
処理A × 処理B
だけでいいわけだし.
-
てなかんぢで午前終了.
1215 北大構内走発.
今日も曇天で走るのに適している.
1250 もどる.
昼飯.
-
午後は統計学本さらに検討してみたり,
かとーさんの邪魔をしたり,
小川さん原稿熟読したり,
まぬけ質問メイルをさしあげたり,
解析修正案の流れをだーっと書いてみたり
……
で,
日没ごろに到達したワタクシ的な結論としては,
大手術をして抜本的に全部やりなおすか,
そうでないんなら現状のままにしとくのが良い,
ということ.
ここだけちょっと変えれば,
という中間的な策がない.
-
ということで本日は分割表 & 対数線形モデルという
あまり好きではない組みあわせに関しては,
たいへんによく理解できてしまった.
苗場山データの性質にも詳しくなったんで,
これを順番に片づけていく流れもわかった.
しかしながら,
このさきどうなるのかわからない.
当方の考えは尽きたので撤退.
1930 研究室発.
1945 帰宅.
体重 72.0kg.
晩飯.
-
晩飯くったらカテゴリカルばてでいきなり寝てしまう
……
また夜中に目がさめてしまった.
-
[今日の素読]
-
Salsburg, D. 2001.
``
The Lady Tasting Tea
-- How statistics revolutionized science
in the twentieth century''.
Owl Book.
-
Chapter 5. Studies in crop variation
- Studies in crop variation. I
- Galton's regression to the mean generalized
-
To get some idea of the physical effort involved,
consider Table VII that apears on page 123 of
``Studies in Crop Variation. I.'' If it took about
one minute to complete a single large-digit
multiplication, I estimate that Fisher needed about
185 hours of work to generate that table. There are
fifteen tables of similar complexity and four large
complicated graphs in the article. In terms of physical
labor alone, it must have taken at least eight months
of 12-hour days to prepare the tables for this article.
This does not include that the hours needed to work out
the theoretical mathematics, to organize the data,
to plant the analysis, and correct the inevitable
mistakes.
-
Fisher found another record with the same slow change
but with the pattern reversed. This was the infestation
of weeds in the wheat field. After 1876, the weeds
became ever heavier, with new varieties of perennials
establishing themselves. The in 1894 the weeds suddenly
began to diminish, only to start foulrishing again in
1901.
-
It turned out that it had been the practice prior to
1876 to hire small boys to go into the fields and pull
weeds. It was common at that time to see weary children
int the fields of England on an afternoon combing
through the wheat and other graings, constantly pulling
weeds. In 1876, the Education Act made attendance at
school compulsory, and the legions of young boys began
disappearing from the fields. In 1880, a second Education
Act provided penalties for families that kept their
children out of school, and the last of the young boys
left the fields. Without the little fingers to pull them
out, the weeds began to flourish.
-
What happened in 1894 to reverse this trend?
There was a boarding school for girls in the vicinity
of Rothamsted. The new schoolmaster, Sir John Lawes,
believed in vigorous outdoor activity to build up
the health of his young charges. He arranged with the
director of the experimental station to bring his
young girls out into the fields to pull weeds on
Saturdays and evenings. After Sir John died in 1901,
the little girls went back to sedentary and indoor
activities, and the weeds came back to Broadbalk.
-
[今日の運動]
-
北大構内走 1215-1250.
ストレッチング.
-
腹筋運動 30 ×
3 回.
-
[今日の食卓]
- 朝 (0715):
米麦 0.7 合.
タマネギ・ジャガイモ・豆腐のカレー.
- 昼 (1320):
弁当.
研究室お茶部屋.
米麦 0.7 合.
タマネギ・ジャガイモ・豆腐のカレー.
- 晩 (2100):
スパゲッティー.
タマネギ・ジャガイモ・豆腐のカレー.