データ解析こんさるメイル.
私が
3 週間ほど前
に思いついた,
アヤしげな空間統計モデリングごまかしわざに関して,
二次元空間上 (4 近傍) ならどうなるんでしょう,
といったご質問なので,
以下のごとくにいいかげんに回答してみた.
あのアヤしげなハナシは,ようするに「周囲の平均より『ちょっとだけ』ゼロ
に近い値」にすれば収束します,というもので ……
たとえば 4 近傍だと 0.25 * 0.95 = 0.24 ぐらいになるのでしょうか?
当方の最終的なやりくちとしては (左右 2 近傍の場合),
mean <- (近傍の和) * (r - 0.5)
r <- dbeta(10, 10) # 0.5 を平均とする beta 分布
みたいにごまかしました.同じ手口を 4 近傍で使おうとすると,
mean <- (近傍の和) * (r - 0.5) * 0.5
r <- dbeta(10, 10) # 0.5 を平均とする beta 分布
といったものになりそうです.
上記の試行錯誤の最中に「ようするに各点において無限かつ有界でない状態を
とる Gaussian random field (GRF) なんぞを (こんな zero-inflated なデー
タ解析に) 使うから『あちら』の世界にトぶのであって,たとえば {0, 1} の
ような有限個の状態しかとらない Markovian random field (MRF) にすればこ
んな問題は生じないんだ!」といった「手抜きの神」の「天啓」も得てしまいま
したが……実際のところ,この有限状態 MRF 化した統計モデルであっても,さ
まざまなごまかしが要求されたりするかも (誤観測の確率を「きめうち」でく
みこむなど),といったことがわかってきました.なかなか難しいものです.