ぎょーむ日誌 2003-01-29
2003 年 01 月 29 日 (水)
- 0820 起床.
朝飯.
コーヒー.
0900 自宅発.
曇.
0910 研究室着.
- 昨日の推定プログラムをちょっとだけなおす.
とりあえずはこれで使えるだろう.
- ヒトに「教えさせる」のがうまい M1 大澤君が統計学質問
……
ぶんさんぶんせきぃ?
私があまり好きでないというかあまり得意ではないハナシだな.
まぁ,
勉強のつもりで検討してみるか.
ついでながら,
私がこれに negative な印象をもってる理由としては
-
前提がへぼい
-
それなのにそれらの上に細かいお作法体系が構築されている
-
前二者をよく理解してないヒトにかぎって
盲従状態で使っている→ゆーい差決戦主義者になる
- Tukey が ANOVA とゆーコトバを使い始めたときに,
それは(いろいろななんらかのカタチの) 線形モデル一般を
取り調べる手法体系を意味してたのではなかろーか
……
と憶測してるんだけど,
これを「広義の分散分析」とよぶなら,
こんにちこのぎょーかいで「分散分析」
と称されているシロモノは狭義のそれをさしている,
と言えるのかもしれない.
平均値そのものがホントに線形であり,
ばらつきは等分散の正規分布
(これは「誤差」と呼ばれてるが
……
どういう意味で誤差と呼んでいるかはいまいち意味不明).
この手法を使っているヒトたちに
「どうして正規分布なのか?」
「検定に使ってる F 分布は何をあらわすのか?」
といった質問をしてまともな答弁が返ってくる確率は低い.
- それはともかく
……
大澤君のすとらてじーとしては,
青木 R ペイジ
の便利そうな関数を使って,
とりあえずアタリをつけよう,
というもののようで.
で,
それを解読してるとかとー先生から
「そんなの使うのやめたほうがいいですよ」
との助言なので,
ほうりだしてふつーに R を使ってみる.
青木さんのは自分で関数つくるときとか
かなり
参考になるんだけどね
……
- で,
ふつーにやってもごく簡単にできるわけで.
obs <- scan("data.txt", sep = ",", list(x0 = 0, x1 = 0, y = 0))
obs$x0 <- factor(obs$x0) # 名義変数に変換
obs$x1 <- factor(obs$x1)
model <- aov(y ~ x0 + x1, data = obs)
summary(model) # 結果の表示
- 少し Sokal & Rohlf 本など調べてみて,
大澤データの場合は交互作用とやらを考慮せんといかんようで.
その場合は
model <- aov(y ~ x0 * x1 , data = obs)
とすればよい.
ということで午前中終了.
- 1230 北大構内走発.
晴.
1305 研究室帰着.
昼飯.
- 昼からも呪われ正規分布モデル談義.
かとー先生から mixed model とか使ったら,
という助言.
- これまた分散分析なヒトたちが
モノごとをわかりにくくするためだけにでっちあげてる
じゃーごんなんだけど,
-
fixed effect:
観測値の分布の平均にだけ影響をおよぼす効果
-
random effect:
観測値の分布の分散にだけ影響をおよぼす効果
-
mixed model:
fixed と random effect の両方を同時に考えるモデル
とゆーことになる.
私などは
「そういう分類なんぞやめて,
観測値が従う確率論的モデルを明示的に書いてしまって,
データからそういう『効果』なるものが
直接的に推定できるかどうかチェックしてみろ」
そっちのほうがよほどすっきりすると思うわけだが,
「変数変換すれば
世の中なにもかも等分散の正規分布になるに決まっています,
なぜなら以前からそうに決まっているからです,
そうなっていないとしたら現実のほうが間違っています」
なるわくぐみにかじりついてるこの方法論の世界では,
分散パラメーターだけをわかりにくくいじったりして,
ホントに気分わるくなる計算やったり,
とか.
- ということで,
午後の前半はあまり楽しくない世界を
私なりに理解しなおしてみようと努力してみる
……
自分がよく使っている推定計算法と
旧来の手法との互換性がどうなっているのか,
という問題はたしかに重要かもしれない.
- で後半は来週に提出されるべき
修論のデータ解析がまだぜんぜんできてません,
という昨日の問題のつづき.
一日たってもあまり進歩してない.
あいかわらず
「なぜそういうふうにデータをとったのか?」
というのがよくわかってないまま,
いいかげんなことをやってるな.
- 研究開始時点で了解しているべきことをいまさら
いちいち確認していたら
……
Trendy セミナー
を逃してしまった.
やれやれ.
- 「ちょっとこういう図を作ってみたら」
と言ったら 1 時間ちかくもかけてようやく作図してくる.
いったい何がどうなってるのかと元データファイルをみると
……
はい,
いつものごとく人力操作がほとんど不可能な
超巨大すぷれっどしーと
(しかもすごく sparse で扱いにくい)
の英雄的な手作業で
ようよう作図してるという情景.
何の工夫すらないゑくせりあんの末路はこういうものだ.
- うんざり度が飽和したので,
データの一部についてはこっちで解析する,
という強権発動
(でないと永久に終了しない).
で,
その腐れたシートから必要なところ
(ごく一部)
を切り出してもらって,
それをテキストファイルとして解毒.
- 私の計算機に転送.
もちろん私は自分もしくは他人の手作業データ処理の正確さなんぞは
まるっきり信用していないので,
まずは簡単な整合性点検プログラムにほうりこんでみる
……
さっそく切り出し操作ミスによる間違い発見.
- そういう過失なんぞは無視しつつ解析・作図してしまう,
とゆーのがゑくせるな「目で見て手で操作」
の正調なお作法だというのは重々承知しているので,
今さら何とも思わない.
こことここが変なので直してくれ,
と再発注.
また時間がかかる.
- とりあえず「すぐに見つかる間違い」のたぐいは
なくなったようなんで今日のところは撤退.
2130 研究室発.
2150 帰宅.
体重 73.6kg.
晩飯.
- 時間はないけど,
今晩はデータ解析とかやらない.
現時点では体力温存につとめるべきだろう
……
とかもっともらしい理由をつけてでれでれする.
いやはや.
- [今日の素読]
- [今日の運動]
-
北大構内走 1230-1305.
ストレッチング.
- [今日の食卓]
- 朝 (0840):
米麦 0.7 合.
ホウレンソウおひたし.
- 昼 (1320):
弁当.
研究室お茶部屋.
米麦 0.7 合.
ホウレンソウおひたし.
- 晩 (2200):
米麦 0.7 合.
ホウレンソウおひたし.
ネギ・カレイの味噌汁.