クロスセクションデータとは データ分析講座(その102)

更新日

投稿日

データ分析

◆ 時系列データをクロスセクションデータとして分析するもったいなさ

 世の中の多くのデータは、時間という概念が紐づいた時系列データ(※1)です。時間の概念がないデータとして有名なのがクロスセクションデータ(※2)です。例えばある特定の時期に実施したアンケート調査などは、クロスセクションデータになります。同じアンケート調査を、毎月繰り返してその時間的な変化を分析することを考えた場合は時系列データです。同じ人(標本)に調査を繰り返した時系列データを、パネルデータ(※3)といいます。

 クロスセクションデータに比べ、時系列データは情報量が豊富で時間の概念も使えるため分析の幅も広がります。しかし時系列データをクロスセクションデータとして分析する人は、結構多いように思います。そこで今回は「時系列データをクロスセクションデータとして分析するもったいなさ」というお話しをします。

1. “もったいない”のはなぜ?

 なぜ、時系列データをクロスセクションデータとして分析するというもったいないことを多くの人が行うのでしょうか。

 第一に挙げられるのは「簡単だから」です。クロスセクションデータであれば時間軸という概念を排除できるので、データ分析の問題が簡単になります。例えば契約の継続・離反を予測するモデルを構築する時や、故障を予知するためのモデルを構築する時、時系列性を考えなければ考慮する場合と比べ比較的簡単に構築することができます。その代わり多くの何かを考慮しないことになります。

2. データの周期性やトレンドが無視されてしまう

 まずい理由として、一番最初に思いつくのが予測対象である継続・離反や故障などのデータの周期性やトレンドが考慮されないことです。周期性とは例えば季節性などを指し、トレンドは上昇や下降傾向といったものですが、そういったものが一切無視されてしまいます。トレンドや周期性が何によってもたらされているのかを感じることは、将来を予測したり過去を評価する上でも重要です。

3. ラグ性も考慮されない

 次に思い浮かぶのはラグ性(タイムラグ)です。1ケ月前の何かが次の月に何らかの形で影響を及ぼすことは結構あります。クロスセクションデータとして分析すると、このようなタイムラグを無視することになるのです。時間的軸の要素が抜け落ちているからです。

4. 構造変化も考慮されない

 周期性やラグ性だけではありません。クロスセクションデータとして分析すると構造変化も無視することにもなってしまいます。ここでいう構造とは、データ間の相関構造(相関係数行列)のことです。データ間の相関も、時間の変化とともに変化することがありますのでこの変化を分析に取り込むことは非常に重要なのです。

 例えば、故障予知を説明する要因として構造変化が考えられたりするからです。ある機械のセンサー間の相関関係に問題が...

データ分析

◆ 時系列データをクロスセクションデータとして分析するもったいなさ

 世の中の多くのデータは、時間という概念が紐づいた時系列データ(※1)です。時間の概念がないデータとして有名なのがクロスセクションデータ(※2)です。例えばある特定の時期に実施したアンケート調査などは、クロスセクションデータになります。同じアンケート調査を、毎月繰り返してその時間的な変化を分析することを考えた場合は時系列データです。同じ人(標本)に調査を繰り返した時系列データを、パネルデータ(※3)といいます。

 クロスセクションデータに比べ、時系列データは情報量が豊富で時間の概念も使えるため分析の幅も広がります。しかし時系列データをクロスセクションデータとして分析する人は、結構多いように思います。そこで今回は「時系列データをクロスセクションデータとして分析するもったいなさ」というお話しをします。

1. “もったいない”のはなぜ?

 なぜ、時系列データをクロスセクションデータとして分析するというもったいないことを多くの人が行うのでしょうか。

 第一に挙げられるのは「簡単だから」です。クロスセクションデータであれば時間軸という概念を排除できるので、データ分析の問題が簡単になります。例えば契約の継続・離反を予測するモデルを構築する時や、故障を予知するためのモデルを構築する時、時系列性を考えなければ考慮する場合と比べ比較的簡単に構築することができます。その代わり多くの何かを考慮しないことになります。

2. データの周期性やトレンドが無視されてしまう

 まずい理由として、一番最初に思いつくのが予測対象である継続・離反や故障などのデータの周期性やトレンドが考慮されないことです。周期性とは例えば季節性などを指し、トレンドは上昇や下降傾向といったものですが、そういったものが一切無視されてしまいます。トレンドや周期性が何によってもたらされているのかを感じることは、将来を予測したり過去を評価する上でも重要です。

3. ラグ性も考慮されない

 次に思い浮かぶのはラグ性(タイムラグ)です。1ケ月前の何かが次の月に何らかの形で影響を及ぼすことは結構あります。クロスセクションデータとして分析すると、このようなタイムラグを無視することになるのです。時間的軸の要素が抜け落ちているからです。

4. 構造変化も考慮されない

 周期性やラグ性だけではありません。クロスセクションデータとして分析すると構造変化も無視することにもなってしまいます。ここでいう構造とは、データ間の相関構造(相関係数行列)のことです。データ間の相関も、時間の変化とともに変化することがありますのでこの変化を分析に取り込むことは非常に重要なのです。

 例えば、故障予知を説明する要因として構造変化が考えられたりするからです。ある機械のセンサー間の相関関係に問題が生じ2時間後に故障する、などといったことが起こったりします。そこで構造変化という要因を、故障予知の変数として使うことで故障予知の精度が飛躍的に高まるということに繋がってくるからです。このように、時系列データをクロスセクションデータとして分析すると、色々な不都合が生じます。

※1 一つの項目について時間に沿って集めたデータ(過去5年間の人口推移など)
※2 
ある時点に特定し、場所やグループ別など複数の項目を集め記録したデータ(令和●年の東京都の人口、世帯数など)
※3 
同じ人や標本について、その対象を変えることなく複数の項目を継続的に調べ記録したデータ

   続きを読むには・・・


この記事の著者

高橋 威知郎

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
異常検知は最も始めやすいデータ活用の1つ データ分析講座(その207)

    単純な売上データも、ウェブサイトのアクセス状況も、工場などのセンサーから収集すされるデータも、時系列データです。多くのビジ...

    単純な売上データも、ウェブサイトのアクセス状況も、工場などのセンサーから収集すされるデータも、時系列データです。多くのビジ...


顧客のチャーン予測(離反予測) データ分析講座(その250)

  よくあるデータ活用のテーマの1つに、顧客のチャーン予測(離反予測)というものがあり、離反率をはじき出すことができます。離反率は、顧客満...

  よくあるデータ活用のテーマの1つに、顧客のチャーン予測(離反予測)というものがあり、離反率をはじき出すことができます。離反率は、顧客満...


セキュリティ脅威と歴史 制御システム(その1)

    【制御システム 連載目次】 1. セキュリティ脅威と歴史 2. サイバー攻撃事例、情報システムとの違い 3....

    【制御システム 連載目次】 1. セキュリティ脅威と歴史 2. サイバー攻撃事例、情報システムとの違い 3....


「情報マネジメント一般」の活用事例

もっと見る
たかがWord、されどWord

 マイクロソフトOfficeはどこでも使われているので、ITリテラシーとしてWordを使えることが求められます。『 Wordが使える 』と言っても、そのレ...

 マイクロソフトOfficeはどこでも使われているので、ITリテラシーとしてWordを使えることが求められます。『 Wordが使える 』と言っても、そのレ...


‐情報収集で配慮すべき事項(第3回)‐  製品・技術開発力強化策の事例(その11)

 前回の事例その10に続いて解説します。ある目的で情報収集を開始する時には、始めに開発方針を明らかにして、目的意識を持って行動する必要があります。目的を明...

 前回の事例その10に続いて解説します。ある目的で情報収集を開始する時には、始めに開発方針を明らかにして、目的意識を持って行動する必要があります。目的を明...


既存コア技術強化のためのオープン・イノベーション:富士フイルムの例

 2015年7月20日号の日経ビジネスに、富士フイルムの特集が掲載されました。富士フイルムは、既存コア技術強化のためにオープン・イノベーションを果敢に...

 2015年7月20日号の日経ビジネスに、富士フイルムの特集が掲載されました。富士フイルムは、既存コア技術強化のためにオープン・イノベーションを果敢に...