Column

経済学部教員コラム vol.75

経済学部教員コラム vol.75

平野 敏弘

位置情報を持つデータの予測

私は統計学、特に空間統計学という分野を専門としています。

空間統計学は座標といった空間情報を持つデータの統計解析を研究する分野で、土地の価格・交通量・降水量などが分析対象となります。

ここでは、空間統計学で行われている予測に関する研究の一部について紹介します。

(以下の文章はいくつかの仮定の下で成立します。特に、データが平均既知の正規定常確率場に従うと仮定しており、また、充填漸近論を採用しています。)

空間統計学ではクリギングという代表的な予測手法があります。これは位置情報を持つ観測データから未観測地点のデータを予測するという手法で、計算の際にはデータ間の依存関係を表す空間相関の値を使用します。この空間相関が正しく特定されていれば、クリギングによる予測は最適(平均平方予測誤差が最小)となります。

しかし、実際のデータ分析において空間相関を正しく特定することは困難であり、また、ある設定の下で空間相関をコントロールする一連のパラメータの一致推定量は存在しないことが知られています。

それでは、位置情報を持つデータに対しては精度の悪い予測しかできないのでしょうか。実は、空間相関がある種の誤特定をされていても、サンプルサイズが大きければクリギングの予測誤差は最適な場合とほとんど変わらないということが証明されています。これはシミュレーションでも確認することができます。

この性質の原理を利用してクリギングを高速計算する手法があります。

これは、空間相関全体を減衰させ、大部分を0にすることでクリギングを高速計算するという手法です。減衰により空間相関がある程度変化したことになりますが、上記の性質が成立していることを証明できるので、高速化を行ってもサンプルサイズが大きければ最適予測とほとんど同程度の精度で予測することができます。 実際の空間データ分析における様々な設定の下で、このような性質が成立するかどうか、または高速化につなげることができるかどうかを明らかにするのが空間予測の研究の一部であり、私が行っている研究の1つとなります。