時系列データ データ分析講座(その33)

更新日

投稿日

情報マネジメント

◆ 異常検知とデータ分析は、切っても切り離せない

 モニタリングする指標の多くは、時系列データといわれるものです。時系列データとは、一定間隔(例:1週間、1日、1時間)ごとに観察されるデータのことです。ビジネスの多くの指標は、時系列データでしょう。

 例えば、一般消費者を相手にする小売店であれば「日販」(1日の売上高)や「購入者数」(レシート数)は、時系列データです。法人営業の部署であれば1週間の「問い合わせ件数」や「受注件数」なども時系列データです。要するに、ビジネスデータ分析は、時系列のデータ分析なのです。

1. 指標は、あまり変化しないからこそ見るべき

 日々モニタリングしている指標の値は、当然ながら日々変化します。しかし、多少の変化はあっても、大きく変化することは少ないことでしょう。例えば、ある小売店の「日販」の平均が平日50万円で休日120万円であれば、平日は40万円~60万円ぐらいの範囲に、休日は110万円~130万円ぐらいの範囲に収まることでしょう。例えば、ある法人営業の営業課で、取り扱っている商材の、ある時期の1週間の「問い合わせ件数」の平均が25件であれば、その時期はどの週も概ね15件~35件ぐらいの範囲に収まることでしょう。

 このように指標の値は、ある一定の範囲内に収まります。しかし、時々思いがけない変化をすることがあるのです。例えば、平日に平均50万円ぐらいで推移していた「日販」が、ある日を境にじわじわと上昇し、気づけば平日の「日販」の平均が100万円ぐらいの水準になっていたりする。

 例えば、取り扱っている商材の1週間の「問い合わせ件数」が25件ぐらいで推移していたのに、ある週だけ急に跳ね上がり「問い合わせ件数」が100件になることもあるかもしれない。
このようなことに気づくことは重要なことでしょう。日々あまり変化しない指標を毎日のように見ていればこそ、発見できるのです。

2. データ分析:2つの異常値

 この思いがけない指標の変化を検知するのが、「異常検知」です。

 異常値にも色々あります。営業やマーケティングであれば、検知したい異常は2種類あります。「外れ値」と「変化点」です。「外れ値」とは、文字通り「通常の指標の値とかけ離れた値に、一時的になること」です。先ほど例にあげた、取り扱っている商材の1週間の「問い合わせ件数」が25件ぐらいで推移していたのに、ある週だけ急に跳ね上がり「問い合わせ件数」が100件になる、という現象です。

 この外れ値がなぜ起こったのか、何かやばいことが起こる前触れなのか、思いがけないチャンスなのか、あらかじめ対応可能なことなのか、無視しても問題ないのか、色々と気になることでしょう。

 「変化点」とは、レベルシフト(水準変化)の「潮目」のことです。レベルシフト(水準変化)とは、全体の水準(レベル)が変化(シフト)することです。例えば、平日の「日販」の平均が50万円(50万円レベル)から平均100万円(100万円レベル)になることを意味します。このような変化点を検知することも、ビジネス上重要でしょう。

3. データ分析:2つの「潮目」(変化点)

 レベルシフト(水準変化)の「潮目」(変化点)は2つあります。

 先ほどの例の場合であれば、平日の「日販」の平均が50万円(50万円レベル)の「終焉時期」と、100万円レベルになる「開始時期」です。上方向のレベルシフトが起これば、早め早めにリソース(例:ヒト、モノ、カネ)を確保し、機会損失を起こさないように対策を打つことになるでしょう。逆に、下方向のレベルシフトが起これば、早め早めにその要因を掴み対策を打ち、その変化に何かしら対策を打つ必要があるでしょう。そのレベルシフトの「潮目」(変化点)を検知することで、早め早めの対策が打てるのです。

4. データ分析:異常検知の2ステップ

 具体的には、以下の2ステップで「異常検知」を実施します。

  • ステップ1:時系列モデルの構築
  • ステップ2:外れ値スコアの算出

 ステ...

情報マネジメント

◆ 異常検知とデータ分析は、切っても切り離せない

 モニタリングする指標の多くは、時系列データといわれるものです。時系列データとは、一定間隔(例:1週間、1日、1時間)ごとに観察されるデータのことです。ビジネスの多くの指標は、時系列データでしょう。

 例えば、一般消費者を相手にする小売店であれば「日販」(1日の売上高)や「購入者数」(レシート数)は、時系列データです。法人営業の部署であれば1週間の「問い合わせ件数」や「受注件数」なども時系列データです。要するに、ビジネスデータ分析は、時系列のデータ分析なのです。

1. 指標は、あまり変化しないからこそ見るべき

 日々モニタリングしている指標の値は、当然ながら日々変化します。しかし、多少の変化はあっても、大きく変化することは少ないことでしょう。例えば、ある小売店の「日販」の平均が平日50万円で休日120万円であれば、平日は40万円~60万円ぐらいの範囲に、休日は110万円~130万円ぐらいの範囲に収まることでしょう。例えば、ある法人営業の営業課で、取り扱っている商材の、ある時期の1週間の「問い合わせ件数」の平均が25件であれば、その時期はどの週も概ね15件~35件ぐらいの範囲に収まることでしょう。

 このように指標の値は、ある一定の範囲内に収まります。しかし、時々思いがけない変化をすることがあるのです。例えば、平日に平均50万円ぐらいで推移していた「日販」が、ある日を境にじわじわと上昇し、気づけば平日の「日販」の平均が100万円ぐらいの水準になっていたりする。

 例えば、取り扱っている商材の1週間の「問い合わせ件数」が25件ぐらいで推移していたのに、ある週だけ急に跳ね上がり「問い合わせ件数」が100件になることもあるかもしれない。
このようなことに気づくことは重要なことでしょう。日々あまり変化しない指標を毎日のように見ていればこそ、発見できるのです。

2. データ分析:2つの異常値

 この思いがけない指標の変化を検知するのが、「異常検知」です。

 異常値にも色々あります。営業やマーケティングであれば、検知したい異常は2種類あります。「外れ値」と「変化点」です。「外れ値」とは、文字通り「通常の指標の値とかけ離れた値に、一時的になること」です。先ほど例にあげた、取り扱っている商材の1週間の「問い合わせ件数」が25件ぐらいで推移していたのに、ある週だけ急に跳ね上がり「問い合わせ件数」が100件になる、という現象です。

 この外れ値がなぜ起こったのか、何かやばいことが起こる前触れなのか、思いがけないチャンスなのか、あらかじめ対応可能なことなのか、無視しても問題ないのか、色々と気になることでしょう。

 「変化点」とは、レベルシフト(水準変化)の「潮目」のことです。レベルシフト(水準変化)とは、全体の水準(レベル)が変化(シフト)することです。例えば、平日の「日販」の平均が50万円(50万円レベル)から平均100万円(100万円レベル)になることを意味します。このような変化点を検知することも、ビジネス上重要でしょう。

3. データ分析:2つの「潮目」(変化点)

 レベルシフト(水準変化)の「潮目」(変化点)は2つあります。

 先ほどの例の場合であれば、平日の「日販」の平均が50万円(50万円レベル)の「終焉時期」と、100万円レベルになる「開始時期」です。上方向のレベルシフトが起これば、早め早めにリソース(例:ヒト、モノ、カネ)を確保し、機会損失を起こさないように対策を打つことになるでしょう。逆に、下方向のレベルシフトが起これば、早め早めにその要因を掴み対策を打ち、その変化に何かしら対策を打つ必要があるでしょう。そのレベルシフトの「潮目」(変化点)を検知することで、早め早めの対策が打てるのです。

4. データ分析:異常検知の2ステップ

 具体的には、以下の2ステップで「異常検知」を実施します。

  • ステップ1:時系列モデルの構築
  • ステップ2:外れ値スコアの算出

 ステップ1の「時系列モデルの構築」とは、過去データで時系列モデルを構築し、「確率密度」を求めることです。ステップ2の「外れ値スコアの算出」とは、求めた確率密度から、「外れ値スコア」を計算することです。

 一見難しそうに思えるかもしれませんが、実はExcelだけで簡単にできます。

 Excelだけで実施する異常検知の方法は、別の機会に「Excel分析講座」の方で取り上げます。つまり、ビジネスデータの多くは時系列データで、もちろん売上や受注件数、問い合わせ件数などの営業関連データも時系列データです。

 このような、時系列データは通常は大きな変化をすることなく推移しますが、ある日突然おかしな動きをすることがあります。そのようなおかしな動きを検知するのが、異常検知です。異常検知したら、次にその要因は何かを調べることになります。要因分析と言われるデータ分析です。

 次回は、「要因分析」 2つのアプローチを解説します。

   続きを読むには・・・


この記事の著者

高橋 威知郎

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
データ文化を醸成するには データ分析講座(その121)

◆ データ文化を醸成するための第一歩  データ文化のある会社もあれば、無い会社もあります。またデータ文化のある部署もあれば、無い部署もあります。少な...

◆ データ文化を醸成するための第一歩  データ文化のある会社もあれば、無い会社もあります。またデータ文化のある部署もあれば、無い部署もあります。少な...


ABテストからExcelでも出来る差の差推定へ データ分析講座(その301)

  ABテストとは、例えばユーザをA群(処置群)とB群(統制群)に分け、どちらのほうが好成績を納めるのかをデータで確かめたりするアプローチ...

  ABテストとは、例えばユーザをA群(処置群)とB群(統制群)に分け、どちらのほうが好成績を納めるのかをデータで確かめたりするアプローチ...


モダナイゼーションとは?真実と可能性、レガシーシステムからの脱却について解説

【目次】 「モダナイゼーションの真実と可能性、レガシーシステムからの脱却」というテーマは、現代のビジネス環境において非常に重要な課題...

【目次】 「モダナイゼーションの真実と可能性、レガシーシステムからの脱却」というテーマは、現代のビジネス環境において非常に重要な課題...


「情報マネジメント一般」の活用事例

もっと見る
‐技術開発の目標について 第2回‐  製品・技術開発力強化策の事例(その16)

 技術開発の目標を解説する以下の項目4点について、前回は、1と2を解説しましたので、今回は、第2回として、3と4を記述します。          1....

 技術開発の目標を解説する以下の項目4点について、前回は、1と2を解説しましたので、今回は、第2回として、3と4を記述します。          1....


‐クレ-ム情報を開発に活用‐  製品・技術開発力強化策の事例(その13)

 前回の事例その12に続いて解説します。顧客から出されたクレ-ムは、技術開発や、関連製品の開発の可能性を潜在させている場合が多いようです。その視点からクレ...

 前回の事例その12に続いて解説します。顧客から出されたクレ-ムは、技術開発や、関連製品の開発の可能性を潜在させている場合が多いようです。その視点からクレ...


‐販路開拓に関する問題事例‐ 製品・技術開発力強化策の事例(その19)

 前回の事例その18に続いて解説します。多額の資金と労力を費やして開発した知的財産をどのように活用して販路開拓に結びつけるのか、大変重要な問題ですが、販売...

 前回の事例その18に続いて解説します。多額の資金と労力を費やして開発した知的財産をどのように活用して販路開拓に結びつけるのか、大変重要な問題ですが、販売...