「ぎょーむ日誌」目次に戻る | KuboWeb top に戻る | twilog | atom

ぎょーむ日誌 2014-03-25

苦情・お叱りは，たいへんお手数かけて恐縮ですが，久保 (kubo@ees.hokudai.ac.jp) までお知らせください．

本日 (kubolog20140325) | 次の日 | 1 日前 | 7 日前 | 31 日前 | 365 日前 | top

2014 年 03 月 25 日 (火)

0550 起床．朝飯・とらめし・弁当の準備．ささっと朝飯．とら坊がおきてきたので，とらめし．コーヒー． 0820 自宅発． 0830 保育所着． 0910 研究室着．
そうそう，昨日のぎょーむ日誌に書くのを忘れてたんだけど，松田君のデータ (in 呪われゑくせるフォーマット) を解毒・整形する作業もやったんだった …… 終了までまだもうちょっと R プログラミング作業が必要．
なぜかファクシミリの配線 (!) の修繕をやらされることに …… いったいこの通信方式はいつまで残存するのでしょうか．
そして研究室のネット雑用．
粕谷さんの AIC 例題についてちょっと検討してみる．
Ubuntu 13.10 で sudo apt-get upgrade したら apache 関連のモジュールが更新されて …… また CGI プログラムが動かなくなった!
なんとか修復しようとする努力 ……
うまくいかないまま，昼飯．
けっきょく 15 時すぎまで時間をつぶすことになってしまった ……
Ubuntu 13.10 apache2 あれこれ更新したら，また CGI あれこれが動かなくなり数時間の悪戦苦闘……ふと思いついて apt-get remove apache2-suexec-custom したら，まったく問題なく動作したので椅子から転げおちそうになった……
— 久保拓弥 (@KuboBook) 2014, 3月 25
この apache2-suexec-custom というのがいつ入りこんだのか，自分ではぜんぜん記憶がない ……
ぐったり．かくのごとく，ぐったりしてしまうと，ちょっと「とらだっこ」な筋肉痛が「きしむ」ようなかんじで，しんどい …… うー ……
粕谷さんの AIC 誤用の指摘について，当日の生態学会大会会場では「意外だ」と感想をのべたヒトが多かった …… ということで，そのあたりを考察したメイルを書いてみた．実際には翌日の 3/26 に送信したんだけど，試行錯誤は 3/25 にやったということで，ここに転記 (一部改訂)．

まあ，生態学会のふつうの統計ユーザーの場合，こういう理解なのではないでしょうか．

検定は「真のモデル」を決める方法のひとつであり，まちがえる確率は 5% (あるいは P)

モデル選択もほとんど同じ目的の手法だが，まちがえる確率は 15% になる

モデル選択のほうが新しい手法なのにまちがえる確率が高くて意外だ

検定に関して，帰無仮説が棄却される場合に限定したとしても，P < 0.05 なら対立仮説が「真のモデル」と断定してよいと考えているユーザーが多いのではないでしょうか．猛者になると P > 0.05 なら帰無仮説が真のモデルと断定しそうですね．

ハナシが少しずれますが，この背景にあるのは P とか AIC といった一個の推定値を見て (つまり統計学的手法の理解する努力の最小化をはかりつつ)，強力無比な結論を断定的に主張してみたい (主張の最強力化)，といった考えかたなのかもしれません．

さてさて……粕谷さんは AIC の説明をするときに「予測の最適化」と説明されることが多く，これはまったく正しいと思うのですが，じつは聞いても理解できない人が多数派なのかもしれません．私は「統計モデルを使った予測」という考えかたは，生態学な人たちのあいだであまり明確に認知されていないと考えています．周りの院生たちを見ても，推定値を組み合わせて予測を示せるような人はほとんどいません．

「よくわかってない」に関していえば，予測だけでなく，そもそも GLM の係数の推定値についても，あまりよくわかっていない人が多いように見うけられます．たとえば R の summary(glm(...)) の係数 table をそのままはりつけてポスター発表する人がたくさんいますが，この table の中で「説明変数名とアスタリスク *」だけが「理解」されいている場合が多いように思います．効果の推定値が何を意味するのか，あるいは SE の大きさはどう考慮すべきか …… といったことが読み取れないのであれば，「予測」がぜんぜんわからなくても不思議ではありません．とうぜん AIC と予測の関係もわかりません．

AIC 誤用を指摘する粕谷さん発表の「意外だ」うけとりの背景について，いろいろと考えているわけですが，上記 1, 2, 3 的な発想のもとで「まちがえる確率」なるものが 15% であることが意外だという人がいたら，私ならば「AIC と説明変数のセット」だけを見て，統計モデルの予測の良さを検討するのは危ないので，パラメーターの推定値や SE もあわせてよく見なさい，という方向から説明するかもしれません．

たとえば，発表中で示された y ~ rnorm(1000, mean = 0) で説明変数 x の係数はゼロとしている乱数実験で， AIC による「誤選択」は 10000 回のうち約 1500 回，とだけ述べるのはやや不親切で，「説明変数 x いれたモデル」 1500 個の x の係数はどういう値だったのかを示せば，予測における「推定値の不確かさ」の効果なども示せるような説明になるかもしれません．

ひとつの例として，粕谷さんと同じ条件で実験してみると，誤選択されたモデル，つまり「説明変数 x いれたモデル」の x の係数の推定値とプラスマイナス 2 SEの range を図示すると，

このようになることから，余計な説明変数 x をもつ誤選択モデルであっても，この 2 SE 区間にゼロを含む場合が多いので，「予測において x の効果を考慮するのが良い」と断定するのは難しくなる (あるいは統計モデルは x という説明変数を含むが，これは予測にあまり影響を与えない可能性がある) …… といった方向で考える人が増えるようになるかもしれません．

AIC の誤用を説明するときに，AIC の値の大小だけを検討して，誤選択された統計モデルの推定値はどのようなものになるかを示さないのは，ちょっとわかりづらいのでは……と感じたので，ちょっと自分で試行錯誤しながら「つけたしの説明」の一例を作ってみた，というかんじです．

1710 研究室発．買いもの．保育所でとら回収． 1800 帰宅．とらめし．晩飯．
23 時すぎ，原因のよくわからないとら号泣．ここしばらく，あまりエルゴおんぶをしないようにしていたのだが (とらのエルゴ依存と当方の背筋損傷を緩和するため) …… 今回はしょうがないので，エルゴおんぶうろうろ．何度も着地に失敗し， …… 25 時すぎになんとかねてくれました ……
[今日の運動]
- とらちゃんえくささいず．
[今日の食卓]
- 朝 (0630): 米 0.5 合．豆腐の味噌汁．
- 昼 (1200): 研究室．米 0.7 合．サケ．ミニトマト．
- 晩 (1900): 米 0.7 合．豆腐の味噌汁．コマツナ．鶏肉・野菜の炒めもの．

本日 (kubolog20140325) | 次の日 | 1 日前 | 7 日前 | 31 日前 | 365 日前 | top

KuboLog | KuboWeb