データ解析のための統計モデリング入門

 

ここまでに登場した単純なGLMでは、現実のデータ解析には応用できません。その理由は、実験・調査で得られたカウントデータのばらつきは、ポアソン分布や二項分布だけではうまく説明できないからです。

人間は自然のあれこれすべてを測定できるわけではありません。しかし、「何か原因不明な個体差がある」ことは統計モデルとして表現できます。

多くの実際のデータ解析では、このGLMMを基盤とした統計モデルを使うのが適切でしょう。これはデータのばらつきは二項分布・ポアソン分布で、個体のばらつきは正規分布であらわすような、複数の確率分布を部品とする統計モデルです。 

 統計学の入門の教科書では、誤差が独立で同一の分布に従うことを仮定し、その和が中心極限定理によって正規分布で近似できるという前提のもとで、有益なツールとしての統計学の議論を進めていく。

しかし、仮に一般化線形モデルなどのツールを用いても、このようなモデルに当てはまるという前提が成り立たない場合に、より適切な統計モデリングを行うことが必要であると著者が指摘する。

その上で、GLMM(一般化線形混合モデル)を導入して統計モデリングを行うための手順を示し、作成したモデルをMCMCマルコフ連鎖モンテカルロ法)で解くことで、有益な結論を示す手順が解説される。