クロスセクションデータとは データ分析講座(その102)

更新日

投稿日

データ分析

◆ 時系列データをクロスセクションデータとして分析するもったいなさ

 世の中の多くのデータは、時間という概念が紐づいた時系列データ(※1)です。時間の概念がないデータとして有名なのがクロスセクションデータ(※2)です。例えばある特定の時期に実施したアンケート調査などは、クロスセクションデータになります。同じアンケート調査を、毎月繰り返してその時間的な変化を分析することを考えた場合は時系列データです。同じ人(標本)に調査を繰り返した時系列データを、パネルデータ(※3)といいます。

 クロスセクションデータに比べ、時系列データは情報量が豊富で時間の概念も使えるため分析の幅も広がります。しかし時系列データをクロスセクションデータとして分析する人は、結構多いように思います。そこで今回は「時系列データをクロスセクションデータとして分析するもったいなさ」というお話しをします。

1. “もったいない”のはなぜ?

 なぜ、時系列データをクロスセクションデータとして分析するというもったいないことを多くの人が行うのでしょうか。

 第一に挙げられるのは「簡単だから」です。クロスセクションデータであれば時間軸という概念を排除できるので、データ分析の問題が簡単になります。例えば契約の継続・離反を予測するモデルを構築する時や、故障を予知するためのモデルを構築する時、時系列性を考えなければ考慮する場合と比べ比較的簡単に構築することができます。その代わり多くの何かを考慮しないことになります。

2. データの周期性やトレンドが無視されてしまう

 まずい理由として、一番最初に思いつくのが予測対象である継続・離反や故障などのデータの周期性やトレンドが考慮されないことです。周期性とは例えば季節性などを指し、トレンドは上昇や下降傾向といったものですが、そういったものが一切無視されてしまいます。トレンドや周期性が何によってもたらされているのかを感じることは、将来を予測したり過去を評価する上でも重要です。

3. ラグ性も考慮されない

 次に思い浮かぶのはラグ性(タイムラグ)です。1ケ月前の何かが次の月に何らかの形で影響を及ぼすことは結構あります。クロスセクションデータとして分析すると、このようなタイムラグを無視することになるのです。時間的軸の要素が抜け落ちているからです。

4. 構造変化も考慮されない

 周期性やラグ性だけではありません。クロスセクションデータとして分析すると構造変化も無視することにもなってしまいます。ここでいう構造とは、データ間の相関構造(相関係数行列)のことです。データ間の相関も、時間の変化とともに変化することがありますのでこの変化を分析に取り込むことは非常に重要なのです。

 例えば、故障予知を説明する要因として構造変化が考えられたりするからです。ある機械のセンサー間の相関関係に問題が...

データ分析

◆ 時系列データをクロスセクションデータとして分析するもったいなさ

 世の中の多くのデータは、時間という概念が紐づいた時系列データ(※1)です。時間の概念がないデータとして有名なのがクロスセクションデータ(※2)です。例えばある特定の時期に実施したアンケート調査などは、クロスセクションデータになります。同じアンケート調査を、毎月繰り返してその時間的な変化を分析することを考えた場合は時系列データです。同じ人(標本)に調査を繰り返した時系列データを、パネルデータ(※3)といいます。

 クロスセクションデータに比べ、時系列データは情報量が豊富で時間の概念も使えるため分析の幅も広がります。しかし時系列データをクロスセクションデータとして分析する人は、結構多いように思います。そこで今回は「時系列データをクロスセクションデータとして分析するもったいなさ」というお話しをします。

1. “もったいない”のはなぜ?

 なぜ、時系列データをクロスセクションデータとして分析するというもったいないことを多くの人が行うのでしょうか。

 第一に挙げられるのは「簡単だから」です。クロスセクションデータであれば時間軸という概念を排除できるので、データ分析の問題が簡単になります。例えば契約の継続・離反を予測するモデルを構築する時や、故障を予知するためのモデルを構築する時、時系列性を考えなければ考慮する場合と比べ比較的簡単に構築することができます。その代わり多くの何かを考慮しないことになります。

2. データの周期性やトレンドが無視されてしまう

 まずい理由として、一番最初に思いつくのが予測対象である継続・離反や故障などのデータの周期性やトレンドが考慮されないことです。周期性とは例えば季節性などを指し、トレンドは上昇や下降傾向といったものですが、そういったものが一切無視されてしまいます。トレンドや周期性が何によってもたらされているのかを感じることは、将来を予測したり過去を評価する上でも重要です。

3. ラグ性も考慮されない

 次に思い浮かぶのはラグ性(タイムラグ)です。1ケ月前の何かが次の月に何らかの形で影響を及ぼすことは結構あります。クロスセクションデータとして分析すると、このようなタイムラグを無視することになるのです。時間的軸の要素が抜け落ちているからです。

4. 構造変化も考慮されない

 周期性やラグ性だけではありません。クロスセクションデータとして分析すると構造変化も無視することにもなってしまいます。ここでいう構造とは、データ間の相関構造(相関係数行列)のことです。データ間の相関も、時間の変化とともに変化することがありますのでこの変化を分析に取り込むことは非常に重要なのです。

 例えば、故障予知を説明する要因として構造変化が考えられたりするからです。ある機械のセンサー間の相関関係に問題が生じ2時間後に故障する、などといったことが起こったりします。そこで構造変化という要因を、故障予知の変数として使うことで故障予知の精度が飛躍的に高まるということに繋がってくるからです。このように、時系列データをクロスセクションデータとして分析すると、色々な不都合が生じます。

※1 一つの項目について時間に沿って集めたデータ(過去5年間の人口推移など)
※2 
ある時点に特定し、場所やグループ別など複数の項目を集め記録したデータ(令和●年の東京都の人口、世帯数など)
※3 
同じ人や標本について、その対象を変えることなく複数の項目を継続的に調べ記録したデータ

   続きを読むには・・・


この記事の著者

高橋 威知郎

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
前年踏襲という意味不明なロジックとは データ分析講座(その206)

  予算などの計画値を考えるとき、前年同又は前年比1.1倍みたいな立て方があります。 例えば…… 前年...

  予算などの計画値を考えるとき、前年同又は前年比1.1倍みたいな立て方があります。 例えば…… 前年...


見積システムによるDX(その2)

  【目次】 1.アナログ情報をデジタル化 2.プロセス全体をデジタル化 3.価値の創造と利益の拡大   ここ...

  【目次】 1.アナログ情報をデジタル化 2.プロセス全体をデジタル化 3.価値の創造と利益の拡大   ここ...


間接部門のプロセス改善とは 人材育成・組織・マネジメント(その1)

    【人材育成・組織・マネジメントの考察 連載目次】 1. 間接部門のプロセス改善とは 2. 現場は全てを物語る ...

    【人材育成・組織・マネジメントの考察 連載目次】 1. 間接部門のプロセス改善とは 2. 現場は全てを物語る ...


「情報マネジメント一般」の活用事例

もっと見る
‐情報収集で配慮すべき事項(第2回)‐  製品・技術開発力強化策の事例(その10)

 前回の事例その9に続いて解説します。ある目的で情報収集を開始する時には、始めに開発方針を明らかにして、目的意識を持って行動する必要があります。目的を明確...

 前回の事例その9に続いて解説します。ある目的で情報収集を開始する時には、始めに開発方針を明らかにして、目的意識を持って行動する必要があります。目的を明確...


‐時代の流れを意識した開発テ-マの設定‐  製品・技術開発力強化策の事例(その5)

 前回の事例その4に続いて解説します。時代の流れに沿う開発テ-マとして、最近では、高齢者介護機器、環境関連機器、省エネ機器、情報技術(IT)等に関心が注が...

 前回の事例その4に続いて解説します。時代の流れに沿う開発テ-マとして、最近では、高齢者介護機器、環境関連機器、省エネ機器、情報技術(IT)等に関心が注が...


‐社内の問題克服による開発活動‐  製品・技術開発力強化策の事例(その14)

 前回の事例その13に続いて解説します。社内における様々な問題を高いレベルで深く追及して解決することが、競争力のある技術を育成し、売れる製品を生み出す事に...

 前回の事例その13に続いて解説します。社内における様々な問題を高いレベルで深く追及して解決することが、競争力のある技術を育成し、売れる製品を生み出す事に...