ROC や AUC は何だかよくわかっていなかったのですが,いろいろ勉強してみると,保全生物学的な文脈のもとでは,prediction が重要かつ偽陽性 (不在なのに在と主張) が偽陰性よりまずい,というのがひとつのまとめかたかも,という気がしてきました.
つぎに ROC や AUC は何をしているのかと考えると,これはあてはまりの良さというより偽陽性のおこりやすさ (予測におけるまちがいの一部) を評価しているわけですが,保全生態学的な個体群サイズ予測では偽陽性は偽陰性より深刻な問題であると明確に指摘・主張するのもよいのではないかと思います. たとえば,個体群浮動 (population drift) が発生しうる状況では個体群サイズの過大予測は絶滅確率の予測をおおいにゆがませるといった指摘ですね (個体群浮動に関する論文には個体群サイズと絶滅確率の関係がいろいろとあると思います).
さて,ROC+AUC は偽陽性の存在を示すひとつの方法ですが,これだけでは個体群サイズ見積りに関してどのようなバイアスが生じているのかよくわかりません.そこで cross validation の結果を利用して,それぞれのモデルによる個体群サイズ (この場合だと合計「在」地点数の予測?) の予測のよしあしを明示的に示すのが良いかと思います.たとえば,このモデルだと個体群サイズを ○倍過大に推定し,その予測分布 (MCMC の結果を利用して生成) はこのようにずれていると示してみるのはどうでしょうか.
これに対して,あてはまりの良さは必ずしも重要な点ではないように思いますので, deviance をつかった指標などは不要ではないでしょうか.あてはまりの良さにしつこくこだわる読者が多いような気もしますが,こういうヒトたちはだいたいにおいて (言うところの) 「説明力」と予測力の区別がついていないので,そのあたりを明確に記述すれば良いでしょう.
i
での
「在」
確率
p[i]
が与えられているとすると,
p[i]
をランダムにひとつ選ぶ
p[j]
をランダムにひとつ選ぶ
p[i]
> p[j]
となっている確率が AUC に等しい,
ということになる.
完全識別できていれば
p[i]
> p[j]
となる確率 (AUC) は 1 となる.
p[i]
> p[j]
となる確率が低ければ低いほど,
偽陽性が多くなるとは言えるけれど,
同時にそれは偽陰性も増えるということだ.
つまり,
こういう識別の問題においては偽陽性が大きければ,
自動的に偽陰性も大きくなる,
ということになる.
これってあたり前のことなんだろうけど,
ぜんぜん気づかなかった.
マヌケだ.