クロスセクションデータとは データ分析講座(その102)

◆ 時系列データをクロスセクションデータとして分析するもったいなさ

 世の中の多くのデータは、時間という概念が紐づいた時系列データ(※1)です。時間の概念がないデータとして有名なのがクロスセクションデータ(※2)です。例えばある特定の時期に実施したアンケート調査などは、クロスセクションデータになります。同じアンケート調査を、毎月繰り返してその時間的な変化を分析することを考えた場合は時系列データです。同じ人(標本)に調査を繰り返した時系列データを、パネルデータ(※3)といいます。

 クロスセクションデータに比べ、時系列データは情報量が豊富で時間の概念も使えるため分析の幅も広がります。しかし時系列データをクロスセクションデータとして分析する人は、結構多いように思います。そこで今回は「時系列データをクロスセクションデータとして分析するもったいなさ」というお話しをします。

1. “もったいない”のはなぜ?

 なぜ、時系列データをクロスセクションデータとして分析するというもったいないことを多くの人が行うのでしょうか。

 第一に挙げられるのは「簡単だから」です。クロスセクションデータであれば時間軸という概念を排除できるので、データ分析の問題が簡単になります。例えば契約の継続・離反を予測するモデルを構築する時や、故障を予知するためのモデルを構築する時、時系列性を考えなければ考慮する場合と比べ比較的簡単に構築することができます。その代わり多くの何かを考慮しないことになります。

2. データの周期性やトレンドが無視されてしまう

 まずい理由として、一番最初に思いつくのが予測対象である継続・離反や故障などのデータの周期性やトレンドが考慮されないことです。周期性とは例えば季節性などを指し、トレンドは上昇や下降傾向といったものですが、そういったものが一切無視されてしまいます。トレンドや周期性が何によってもたらされているのかを感じることは、将来を予測したり過去を評価する上でも重要です。

3. ラグ性も考慮されない

 次に思い浮かぶのはラグ性(タイムラグ)です。1ケ月前の何かが次の月に何らかの形で影響を及ぼすことは結構あります。クロスセクションデータとして分析すると、このようなタイムラグを無視することになるのです。時間的軸の要素が抜け落ちているからです。

4. 構造変化も考慮されない

 周期性やラグ性だけではありません。クロスセクションデータとして分析すると構造変化も無視することにもなってしまいます。ここでいう構造とは、データ間の相関構造(相関係数行列)のことです。データ間の相関も、時間の変化とともに変化することがありますのでこの変化を分析に取り込むことは非常に重要なのです。

 例えば、故障予知を説明する要因として構造変化が考えられたりするからです。ある機械のセンサー間の相関関係に問題が...

生じ2時間後に故障する、などといったことが起こったりします。そこで構造変化という要因を、故障予知の変数として使うことで故障予知の精度が飛躍的に高まるということに繋がってくるからです。このように、時系列データをクロスセクションデータとして分析すると、色々な不都合が生じます。

※1 一つの項目について時間に沿って集めたデータ(過去5年間の人口推移など)
※2 
ある時点に特定し、場所やグループ別など複数の項目を集め記録したデータ(令和●年の東京都の人口、世帯数など)
※3 
同じ人や標本について、その対象を変えることなく複数の項目を継続的に調べ記録したデータ

◆関連解説『情報マネジメントとは』

↓ 続きを読むには・・・

新規会員登録


この記事の著者