更新: 2018-01-16 12:26:08
生態学のデータ解析 - 生態学と遺伝学
- 生態遺伝学 (ecological genetics) の統計モデリング
- ベイズ統計 & MCMC も参照
[もくじ]
R で生態遺伝学
- まずは CRAN Task View: Statistical Genetics で近ごろの概要をみてください
親子解析
- MasterBayes
- Jarrod Hadfield さん作
- 親候補との距離も考慮して親子の Bayes 推定をする package です
(以下は Sheffield 大学の田中健太さんが書かれた宣伝文です.転載の許可をいただいたので,久保が少し体裁など変えてここに置かせてもらっています)
みなさま
- ここの同僚 (Jarrod Hadfield さん) が最近MolEcoに発表したベイジアンな親子解析法の、Rパッケージがすでに CRAN で公開されています。
- MolEco の paper (注) からも大幅な改良が加えられ(70%以上新しいとのこと)、様々な遺伝様式や繁殖様式にも適用できたり、genotyping errorを補正する新しいアルゴリズムが加わっています。
- このプログラム自体をいずれどこかの雑誌で発表するようですが、いちはやくすでに完全公開されているので、代わりに宣伝します。
- 通常のRライブラリと同様にCRANからインストールできる、MasterBayesというライブラリがそれです。
- Rコンソール上でライブラリ読み込み後、
vignette("MasterBayes.Tutorial")
とすることで非常に詳細なpdfマニュアルが立ち上がります。
- Rコンソール上でライブラリ読み込み後、
- 何だかB級というか地下サブカルチャー的な命名ですが、内容は確かなはず(?)
- この方法の売りはベイジアンであることもそうなのですが、位置情報を活かして推定を正確にすることです。以前の全ての最尤法およびfractional assignmentでは、候補が複数いるときに位置を無視して推定を行うため、散布距離に関して過激な推定を行ってしまう傾向が必ず生じます。したがって、散布距離を過大に評価することになります。
- この傾向は、尤度比の閾値を下げるほど(したがってfractonalの場合には最大)、候補親数が増えるほど、調査面積が増えるほど、genotyping errorを考慮するほど強くなります。
- このことがぼくはすぐに理解できなかったのですが、たとえば極端な例では、苫小牧に作ったプロットの他にアメリカのプロットからも「親候補」をサンプリングした場合、以前の方法ではアメリカの親候補にも、完全に矛盾した遺伝子型を持っていない限り、なにがしかの尤度が割り振られてしまいます。これは、親候補が1つに絞られる場合だけから得られる散布曲線に照らして、明らかに過激な推定です。
- ただしこの過大評価の問題は、マーカーの精度が高いと、無視できるほど減ります。
- 新しい方法では複数候補がいたときに、事前分布として得られている親尤度と距離の関係を考慮して尤度を割り振ったうえで、事前分布を随時修正していきます。そのことから、親候補が複数いる場合のより不確かな推定が、親候補が1つしかいない場合の推定を大きく歪ませるような事態を避けています。
- また、genotyping error(アリルの判別間違い)とallele drop off(ピークの小さいalleleを見落とす、あるいは検出できない)を区別して両者を推定したうえで、親子判別の推定結果に反映させます。この際、これらのerror rateをCERVUSのようにアプリオリに入力する必要がありません。
- 複数の人でgenotypingした場合、人というパラメーターを入れて、誰の error rate が高いかというおそろしいこともできてしまいます。
- このことから、
- 密度の異なる個体群間の比較
- 種間の比較
- 長距離散布の検討
- 正確な家系の再現
- マーカー数が少ない場合
- DNAの質や実験精度が低い場合
- null alleleがある場合
などに特に威力を発揮すると考えられます。少なくともどんな状況でも CERVUS よりも優れています。
- (ただし、null alleleはallele drop off似てはいるものの、それとはことなり遺伝するという特徴があります。これが盛り込まれていないため、現在のところnull allele対処については既存の方法より優れてはいるものの、まだ改良が必要とのことです)
- (ただしただし、null alleleの存在はふつうHWのずれから推定されているだけですが、allele drop offの場合もおなじずれが生じるため、既知の家系データなしにはこの両者を区別できません。したがって、HWのずれが生じた場合、とりあえず allele drop offの可能性について対処するのは、それなりに理にかなったことです)
ぜひ使ってみてください。