KuboWeb top

更新: 2018-08-15 17:10:25

生態学のデータ解析 - 時系列データ解析


[もくじ]


R で時系列データ解析 

Rlogo

library(KFAS) 

一般化状態空間モデルをあつかう library(sspir) 

  • library(sspir) (CRAN)
    • これは時系列データの一般化状態空間モデリング (state space modeling) を可能にしている
    • R Graphical Manual に掲載されてる sspir の 図一覧
    • 応答変数に対応する確率分布は Poisson 分布なども可 (ssm() 関数)
      • つまり GLM 的な時系列解析ができるってコト
    • Journal of Statistical Software にこの package のくわしい 論文 も掲載されてる.

ちょっとメモ 

現代的な時系列データの統計モデルは何をやっているのか? 

現代的な時系列モデリングというと (一般化) 状態空間モデルということになるのでしょう. これは「内部」状態 (status space) と観測値が分離されたモデルです:

  • 直接観測できないいわば「内部」状態の時間変化: x[t] <- x- 1 + u[t]
  • 状態が観測できる量を決める: y[t] <- x[t] + v[t]

ss.png

このときに「観測状態の変化 u[t] と測定値のばらつき v[t] はどうして別々に推定可能なのか? 直感的な説明は?」 といった質問をされました.

そのときに, 私が思いついた直感的なハナシというのは次のようなものです.

結局,この問題であつかうデータを図として描くと, 横軸に時間 (time) t でタテ軸に観測値 y[t] の点々がぽちぽちとプロットされることになります. (一般化) 状態空間モデルで推定したことは何か, というとこれらの観測値の点々に対して「できるだけなめらかな曲線を描け」 というものです.

ssm.png

ただし,このときに,

  • 曲線はできるだけなめらかにしろ: 各時点で好き勝手な値はとらずにできるだけ「前後」にあわせるようにしろ
  • 点々にできるだけあわせろ: たとえば「観測誤差」が正規分布にしたがうのであれば,曲線と点々の二乗誤差を最小にしろ

といった矛盾するふたつの制約をつけられているわけです. つまり,曲線をできるだけなめらかにすると観測値とのずれである二乗誤差が大きくなり, いっぽうで二乗誤差を小さくしようとすると曲線ががくがくぎざぎざになります.

状態空間モデルでは観測とのずれだけでなく, 曲線のなめらかさも正規分布など確率分布で表現されます. したがって, この統計モデル全体の尤度ができるだけ高くすることで 上の二条件のあいだの妥協点を見出すことができるわけです. つまり,尤度の観点から「なめらかさ」と「あてはまり」 のバランスをとっているのです.


  • このページは以下から参照されています。

    FrontPage