分析対象データのクセを知るとは データ分析講座(その64)

更新日

投稿日

情報マネジメント

◆ 高度な「売上分析手法」を使う前にすべきな「基礎分析」

 どうしてもデータ分析と聞くと、高度な統計モデルや、今流行りの機械学習モデルをイメージする人が、少なくありません。一番最初にやりべきは、分析対象データのクセを知ることです。
具体的には、簡単な分析指標で確認したり、グラフ化し目で確認したりします。この工程は非常に重要で、見落としていた何かを発見する手掛かりになったりします。今回は、高度な売上分析手法を使う前にすべき誰でもできる基礎分析について、簡単に触れたいと思います。

1. 基礎分析の流れ

 先ず最初に、基礎分析の流れについてご説明します。誰もが何となくやったことがあることだと思います。

  • (1) 1変量の分析
  • (2) 2変量の分析
  • (3) 多変量の分析

 この流れに沿って、1つ1つのデータを丁寧に分析していきます。

2. 1変量の分析

 1変量の分析とは、データ項目を1つ1つグラフ化して見て行くことです。

 営業やマーケティングなどの売上に関係するデータの多くは、時系列データです。多くの場合、時系列の折れ線グラフを描くことでしょう。他には、部署やエリア、商材別に棒グラフを描いたりすることでしょう。このグラフ化だけでも、多くのことが見えてきます。代表的なのは次の3つです。

  •  欠測値
  •  異常値(外れ値や変化点など)
  •  周期性

 欠測値とは、データが取得されていないということです。

 結構、ポロポロと発見されることも少なくありません。そのまま、このデータを分析で使うととんでもないことが起こることでしょう。分析で使わないか、欠測値を別のデータで補完するための処理が必要になってきます。そもそも、データベースからのデータ抽出で失敗していることもあります。原因を調べ、今後分析する上で何かしら対策を打つ必要があります。

 異常値とは、突然データの値が大きくなったり小さくなったり、急激に変化したりと、通常とはことなる数字の値になっている箇所です。異常値は、営業やマーケティング施策上の影響で起きたものや、社会や市場動向に連動して起こっていたりと、何かしらの要因があって起こります。記憶の彼方に行ってしまった要因を、新たに思い出させてくれる効果があります。もしくは、要因を考えるきっかけにもなります。そして怖いのが、単なるデータ抽出やデータ加工のミスなどで起こるケースです。そのまま分析で使うと、非常によろしくないので、そのあたりも念頭に置いて異常値を見ていく必要があります。

 周期性とは、1週間周期や1カ月周期、四半期周期、年周期などのデータの数字の値の大小が循環している現象です。時系列データの多くは、何かしらの周期性があります。この周期性を把握しないままデータ分析をすると、とんでもない勘違いをすることも多いです。要するに、ビジネス理解上やモデル構築上、そしてデータ分析上、この周期性を掴んでおくことが非常に重要になってきます。

3. 2変量の分析

 1変量の分析が終わった後に、2変量の分析をします。2変量の分析とは、2つのデータ項目間の関係性を見ていくことです。どのデータ項目とどのデータ項目が、お互いに関係していそうかを考えるために実施していきます。数量であれば、相関係数といった統計学的な指標で関係性を見たり、散布図でプロットし視覚的に確認します。

 2変量の分析では、単に異なるデータ項目間の関係性を見ていくだけではありません。過去の自分との関係の分析も含まれます。どういうことかと言いますと、例えば……

 「今日の売上」と「昨日の売上」の関係性を分析(売上データとラグ1日の売上データの分析)したり
 「今日の売上」と「1週間前の売上」の関係性を分析(売上データとラグ7日の売上データの分析)したり

 ……することです。このあたりの分析は、周期性の分析と密接に絡んできます。さらに、過去の自分との関係の分析の分析だけでなく、自分と過去の別のデータとの関係の分析もあります。例えば、「今週の売上」と「先週のテレビCM」の関係の分析などです。まとめると、2変量の分析は……

  自分と他のデータ項目の関係の分析(例:今週の売上と今週のチラシ)
  自分と過去の自分の関係の分析(例:今日の売上と先週の売上)
  自分と過去の他のデータ項目の関係の分析(例:今週の売上と先週のテレビCM)

4. 多変量の分析

 多変量の分析とは、3変量以上(もしくは2変量以上)のデータ項目間の関係性の分析になります。

 有名な分析手法は、主成分分析や因子分析といった、多変量解析の分析手法になります。例えば、主成分分析ですと、相関係数の高いデータ項目のグループを知ることができます。モデル構築上、相関係数の高い項目のグループの中から1つのデータ項目を選び構築しても、モデルの精度的には遜色なかったりします。

 さらに、パス解析もしくはグラフィカルモデリングの手法を使い、変数間の関係性をグラフ(無効グラフや有効グラフ)で表現したりすることもあります。この場合のグラフとは、折れ線グラフや棒グラフといったグラフではなく、関係の高そうなデータ項目間の間に線を引いてグラフィカルに表現することです。時系列性を持たせれば、因果グラフのように描くこともできることでしょう。共分散構造分析と呼ばれる手法を使うことで、観測された変数だけでなく、観測されていない潜在的な変数を表現することが可能になります。

5. 基礎分析で、データと対話する

 今回は、「高度な売上分析手法を使う前にすべきな基礎分析」について、簡単に説明しました。

 昨今、ディープラーニングや状態空間モデルなどの高度なモデルがもてはやされていますが、そもそものデータの...

情報マネジメント

◆ 高度な「売上分析手法」を使う前にすべきな「基礎分析」

 どうしてもデータ分析と聞くと、高度な統計モデルや、今流行りの機械学習モデルをイメージする人が、少なくありません。一番最初にやりべきは、分析対象データのクセを知ることです。
具体的には、簡単な分析指標で確認したり、グラフ化し目で確認したりします。この工程は非常に重要で、見落としていた何かを発見する手掛かりになったりします。今回は、高度な売上分析手法を使う前にすべき誰でもできる基礎分析について、簡単に触れたいと思います。

1. 基礎分析の流れ

 先ず最初に、基礎分析の流れについてご説明します。誰もが何となくやったことがあることだと思います。

  • (1) 1変量の分析
  • (2) 2変量の分析
  • (3) 多変量の分析

 この流れに沿って、1つ1つのデータを丁寧に分析していきます。

2. 1変量の分析

 1変量の分析とは、データ項目を1つ1つグラフ化して見て行くことです。

 営業やマーケティングなどの売上に関係するデータの多くは、時系列データです。多くの場合、時系列の折れ線グラフを描くことでしょう。他には、部署やエリア、商材別に棒グラフを描いたりすることでしょう。このグラフ化だけでも、多くのことが見えてきます。代表的なのは次の3つです。

  •  欠測値
  •  異常値(外れ値や変化点など)
  •  周期性

 欠測値とは、データが取得されていないということです。

 結構、ポロポロと発見されることも少なくありません。そのまま、このデータを分析で使うととんでもないことが起こることでしょう。分析で使わないか、欠測値を別のデータで補完するための処理が必要になってきます。そもそも、データベースからのデータ抽出で失敗していることもあります。原因を調べ、今後分析する上で何かしら対策を打つ必要があります。

 異常値とは、突然データの値が大きくなったり小さくなったり、急激に変化したりと、通常とはことなる数字の値になっている箇所です。異常値は、営業やマーケティング施策上の影響で起きたものや、社会や市場動向に連動して起こっていたりと、何かしらの要因があって起こります。記憶の彼方に行ってしまった要因を、新たに思い出させてくれる効果があります。もしくは、要因を考えるきっかけにもなります。そして怖いのが、単なるデータ抽出やデータ加工のミスなどで起こるケースです。そのまま分析で使うと、非常によろしくないので、そのあたりも念頭に置いて異常値を見ていく必要があります。

 周期性とは、1週間周期や1カ月周期、四半期周期、年周期などのデータの数字の値の大小が循環している現象です。時系列データの多くは、何かしらの周期性があります。この周期性を把握しないままデータ分析をすると、とんでもない勘違いをすることも多いです。要するに、ビジネス理解上やモデル構築上、そしてデータ分析上、この周期性を掴んでおくことが非常に重要になってきます。

3. 2変量の分析

 1変量の分析が終わった後に、2変量の分析をします。2変量の分析とは、2つのデータ項目間の関係性を見ていくことです。どのデータ項目とどのデータ項目が、お互いに関係していそうかを考えるために実施していきます。数量であれば、相関係数といった統計学的な指標で関係性を見たり、散布図でプロットし視覚的に確認します。

 2変量の分析では、単に異なるデータ項目間の関係性を見ていくだけではありません。過去の自分との関係の分析も含まれます。どういうことかと言いますと、例えば……

 「今日の売上」と「昨日の売上」の関係性を分析(売上データとラグ1日の売上データの分析)したり
 「今日の売上」と「1週間前の売上」の関係性を分析(売上データとラグ7日の売上データの分析)したり

 ……することです。このあたりの分析は、周期性の分析と密接に絡んできます。さらに、過去の自分との関係の分析の分析だけでなく、自分と過去の別のデータとの関係の分析もあります。例えば、「今週の売上」と「先週のテレビCM」の関係の分析などです。まとめると、2変量の分析は……

  自分と他のデータ項目の関係の分析(例:今週の売上と今週のチラシ)
  自分と過去の自分の関係の分析(例:今日の売上と先週の売上)
  自分と過去の他のデータ項目の関係の分析(例:今週の売上と先週のテレビCM)

4. 多変量の分析

 多変量の分析とは、3変量以上(もしくは2変量以上)のデータ項目間の関係性の分析になります。

 有名な分析手法は、主成分分析や因子分析といった、多変量解析の分析手法になります。例えば、主成分分析ですと、相関係数の高いデータ項目のグループを知ることができます。モデル構築上、相関係数の高い項目のグループの中から1つのデータ項目を選び構築しても、モデルの精度的には遜色なかったりします。

 さらに、パス解析もしくはグラフィカルモデリングの手法を使い、変数間の関係性をグラフ(無効グラフや有効グラフ)で表現したりすることもあります。この場合のグラフとは、折れ線グラフや棒グラフといったグラフではなく、関係の高そうなデータ項目間の間に線を引いてグラフィカルに表現することです。時系列性を持たせれば、因果グラフのように描くこともできることでしょう。共分散構造分析と呼ばれる手法を使うことで、観測された変数だけでなく、観測されていない潜在的な変数を表現することが可能になります。

5. 基礎分析で、データと対話する

 今回は、「高度な売上分析手法を使う前にすべきな基礎分析」について、簡単に説明しました。

 昨今、ディープラーニングや状態空間モデルなどの高度なモデルがもてはやされていますが、そもそものデータのクセを知るためには、昔から実施されている分析手法を使い、丁寧にデータのクセを把握する必要があります。

 私は、このような基礎分析を「データと対話する」という表現を使っています。要するに、丁寧に1変量・2変量・多変量と順を追って分析をすることで、データのコンディションや、そのデータの向こう側にあるビジネスがどのようなものかを知りために、データに対しインタビューしているイメージです。

 順を追って丁寧にインタビューする(丁寧に基礎分析をする)ことで、実態がかなり見えてきます。

 間違ったデータで分析をし続けないためにも、この基礎分析は非常に重要です。意外と、データ抽出ミスやデータ加工ミスなどの人為的なミスを発見することもあります。営業やマーケティング系のデータではないですが、IoT系のデータ分析で、産業用ロボットの組み込みソフトのプログラミングミスを発見したこともあります。

 要するに、この基礎分析だけでも多くのことを知ることができ、データ活用に大いに役立ちます。したがって、定期的に基礎分析を実施することをお勧めします。このような基礎分析の後に、異常検知や要因分析、将来予測などの売上分析に進んでいただければ、社内データがビジネス成果にむずびつきやすくなるかと思います。

   続きを読むには・・・


この記事の著者

高橋 威知郎

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
最近多いケーススタディ⑤「チャーン分析(離反顧客分析)」 データ分析講座(その192)

    データを使い販売力を効率的に高めるセールスアナリティクスには、3つの典型的なテーマがあります。 新規顧客の獲得 既...

    データを使い販売力を効率的に高めるセールスアナリティクスには、3つの典型的なテーマがあります。 新規顧客の獲得 既...


成功確度とデータサイエンス データ分析講座(その226)

  【この連載の前回:データ分析講座(その225)課題発見型データ分析と課題解決型データ分析へのリンク】 ◆関連解説『情報マネジメントと...

  【この連載の前回:データ分析講座(その225)課題発見型データ分析と課題解決型データ分析へのリンク】 ◆関連解説『情報マネジメントと...


早わかりEDA:Electronic Design Automation

  集積回路、プリント回路基板設計と検証に使われるワークフロー、アプリケーション、手法は、CAE (Computer-Aided Engi...

  集積回路、プリント回路基板設計と検証に使われるワークフロー、アプリケーション、手法は、CAE (Computer-Aided Engi...


「情報マネジメント一般」の活用事例

もっと見る
たかがWord、されどWord

 マイクロソフトOfficeはどこでも使われているので、ITリテラシーとしてWordを使えることが求められます。『 Wordが使える 』と言っても、そのレ...

 マイクロソフトOfficeはどこでも使われているので、ITリテラシーとしてWordを使えることが求められます。『 Wordが使える 』と言っても、そのレ...


個票データの共用化でコストダウン

 データ解析の効率は、生データとその整理の仕方で大きく異なると言えます。 例えば、アンケート結果は単なる生データであり、そのままでは解析出来ません。解析の...

 データ解析の効率は、生データとその整理の仕方で大きく異なると言えます。 例えば、アンケート結果は単なる生データであり、そのままでは解析出来ません。解析の...


Excelの帳票を見直そう

 オフィス業務においては、マイクロソフトOfficeがデファクトスタンダードになっています。とりわけ活用されているのはExcelでしょう。Excelを使う...

 オフィス業務においては、マイクロソフトOfficeがデファクトスタンダードになっています。とりわけ活用されているのはExcelでしょう。Excelを使う...