KuboLog 2004-12-08

2004 年 12 月 08 日 (水)

0840 起床．朝飯．コーヒー．朝からまた粕谷さん宿題を考える．うーむ．回答の腹案ができたので 0950 自宅発．晴． 1000 研究室着．

で，数時間かかって宿題の回答を試みる．こういう内容．いま読んでみると，「相撃ち検定」なる名前はあまり実体をうまく表現できていないな．

単純モデルが普通の検定では棄却できない，そして複雑モデルから得られる標
本では単純モデルのあてはまりを説明できないので，複雑モデルは棄却する，
というような「相撃ち検定」とでもいうようなアイデアですね．

たしかに面白いです……しかし，同時にこのような素直なアイデアは「検定」
の長い歴史のうえになんどもあらわれてはそのたびに却下されてきたのでは
(それゆえにモデル選択などが考案されて使われている)，という予断というか
偏見もあります．

かかる予断はあるのですが，「相撃ち検定」はよろしくないでしょうという明
解な説明は思いつけない状況です (何か簡単な説明があるようには思うのです
が)．とりあえず，「相撃ち検定」がうまくいかない事例は考えたので，それ
を説明してます．

パラメーターセット theta で定義される何かの連続分布 f(x | theta) を単
純モデル M0 とします．x はたとえばプラスマイナス無限大の範囲にあるとし
ます．M0 から得られた標本を {X} とします．ここでなんらかの推定方法で 
{X} から複雑モデル M1 が得られるとします．この M1 は f(x | theta) の
「両端」を切断して規格化した切断分布で f(x | theta, min{X}, max{X}) と
いうように標本 {X} の最小値・最大値を「よけいなパラメーター」として含
む複雑モデルです．

これは「相撃ち検定」がうまくいかない可能性を含む事例です．まず，M0 か
ら生成される標本 {X'} を M1 にあてはめる「順方向」検定を検討します．こ
のときに，min{X} <= X' <= max{X} となる確率 (つまり M1 の下限・上限か
らはみださない確率) を q とします．この q が大きいほど M0 を棄却するの
は難しくなります．

いちばん極端には，f(x | theta) が一様分布 (うう，きしょく悪い) だとす
ると，有意水準 1 - q の検定で M0 は棄却できません．

単純モデル M0 が棄却できなかった場合には，つぎに「逆方向」検定をするこ
とになります．複雑モデル M1 から生成された標本 {Y} を M0 にあてはめて
みます．この標本 {Y} は，いわば M0 である確率分布 f(x | theta) から得
られる標本から「両端」を取り除いた (つまり尤度が高くないところを削除し
た) もので，M0 に対するあてはまりが {X} 以上である確率 r も小さくあり
ません．このときに，有意水準 1 - r の「逆方向」検定で M1 は棄却できま
せん．

極端例である一様分布の事例ですと，M1 から生成された {X''} を M0 にあて
はめると常に同じ尤度になります．これはもとデータ {X} から得られた尤度
に等しい値になります．つまり M1 は有意水準 0% で棄却できません．

つまり，「相撃ち検定」では，もとデータ {X} は M0 から生成されたにもか
かわらず，M0 も棄却できなければ M1 も棄却できない可能性があります．

切断分布などというといびつな事例のようですが，おそらく上のようなもどか
しい状況は，もし複雑モデル推定においていわゆる location parameter はう
まく推定しているのに scale parameter (ばらつき) のほうを実際より過小推
定するならば，いつでも発生しうる状況だろう，と思います．

上の「うまくいかなそうな事例」はとりあえずの思いつきなので，間違ってい
るかもしれません．当方でも再検討してみます．

あるいは粕谷さんの構想としては，M0 が棄却できないかつ M1 が棄却できる
ときだけ，この「相撃ち検定」が正当化されていればそれで十分，ということ
なのかもしれませんが……

しかしながら，なんとも正気ならざる反例を考えつくもんだな．

あとで粕谷さんに指摘していただいて，ようやく気づいたんだけど，ここで述べようとしているのは，どんなに標本数を増やしても M0 が棄却できず M1 も棄却できない場合がありうる，ということ．

上の「検定」で標本がどーのこーのと言ってるけど， (これまた粕谷さんに教えていただいた) parametric bootstrap な尤度比較検定を念頭においている (しかし尤度評価のやりかたは何であってもさしつかえない)．つまり M0 から生成した乱数セットで M1 の尤度を評価したり (「順方向」 --- これがふつうの parametric bootstrap 法)，あるいは M1 で生成された乱数で M0 で M0 の尤度を評価する (「逆方向」 --- これが粕谷さんによる拡張)，といったものだ．

かなりばてきってしまった．

霜月さんからアロザイム解析な系統樹に関して，いろいろと教えていただく．たいへん勉強になる． Nested Clade Analysis とか面白そうだなぁ (検索するといろいろ出てくる)．しかし，これは DNA のハプロタイプ樹とかがわかってないと使えないような …… 少なくともアロザイムに適用しようとするとかなり手直しが必要みたいな．

などとまた仕事とは直接関係ないところばかり勉強してみたり．なんというかですね， 12 月であるにもかかわらず，現時点で修論したうけがないのでとても気楽な状況なんですよ …… うん? なんか忘れてるような気も ……

よゆーありそうだから，というわけでもないが，ひどく観念論的な論文原稿の査読ひきうける．たまには，こういうのも読んで耐性をつけないとね．

研究費残金 30 万円．今年はやけに消費してるじゃないか? 先月はじめの鹿児島往還が「豪遊」すぎたのかしらん?

粕谷さんから上記宿題回答についていくつかコメントいただく．しかし本論はこれから，のようで ……

赤坂君にまた別の R 教材ペイジおしえてもらう．札幌学院大の Jin さん (中国出身のかたのようで) によるもので，いちばん基礎的なところから nnet() によるニューラルネットワーク計算まで網羅している．

えー，これとはまた関係なく， R 調査．本日はかなり錯乱しているな．先日インストールした Jari Oksanen の vegan package の挙動調査．これは CANOCO なる内容非公開な有料ソフトウェアの独占体制に一石を投じるものになるかも．

Oksanen が準備した「線形多変量解析のアヤしさ」デモンストレイションをいろいろひねくってみる．

[species → score]

左上にあるように，ある一次元の環境傾度にそって「等間隔」に植物種が分布している，という状況 (架空群落)．調査地はこの軸上に一定間隔でならんでいる．とうぜん解析結果は「植生は一次元の軸で説明できる」というものになってほしい．しかしながら …… PCA は horse shoe 効果が極端にでて二次元上の ♥ 型になり， CA は arch 効果でひんまがり， DCA はそれを無理やりまっすぐにするときの恣意的な操作のせいでぐねぐねとまがってしまい， CCA は環境軸を考慮してるのにやはり arch 効果がでてしまい， arch 効果がないということになってる nonmetric MDS でもなんだか奇妙なカタチに．

いかん，苫小牧直径モデル appendix とか，アカマツとかやるべきことをやらないまま一日が終ってしまった． 2020 研究室発． 2030 帰宅．体重 73.8kg．運動．晩飯．

で，なんだかこれまた当面の仕事とは関係ない遺伝学方面の勉強に没頭してしまって，ですね．ひどく無軌道かつ逸脱しているような．

[今日の運動]

エアロバイク 40 分間．
腹筋運動 30 × 3 回．腕立ふせ 5 × 3 回．

[今日の食卓]

朝 (0850): ヨーグルト．不調ぎみなんで．
昼 (1430): リンゴ．
晩 (2200): 米麦 1.0 合．キャベツ・ダイコン・ブナシメジ・コンニャク・煮干の味噌汁．

ぎょーむ日誌 2004-12-08

2004 年 12 月 08 日 (水)