評価指標の異常判断とは データ分析講座(その245)

更新日

投稿日

データ分析

 

ビジネス活動をしていると、何かしらの指標を眺めることが多々あります。例えば、売上や受注件数、問い合せ件数、サイトのPV(ページビュー)数などなど。多くの人は、子ども時代から、何かしらの指標を眺めて過ごしているでしょう。例えば、受験生であれば模擬テストの点数、受験生でなくても成績表の評価なども、ある種の指標です。指標の動きが想定通りであれば問題ありません。想定通りでない場合、多くの人は異常だと判断することでしょう。今回は、「あなたはどのようなときに指標が異常(問題が起こっている)と判断していますか?」というお話しをします。

 

【目次】
1.どういう状態を正とするのか?
2.過去の傾向からの乖離
3.予測からの乖離(差)
4.崩れた前提をデータで探る

【この連載の前回:データ分析講座(その244)ビジネスで活きる指標とは?へのリンク】

 

1.どういう状態を正とするのか?

繰り返しになりますが、指標の動きが想定通りであれば問題ありません。想定通りでない場合、多くの人は異常だと判断することでしょう。と言うことは、どのような指標の状態を正(想定通り)とするのかを定義しなければ、異常(問題が起こっている)かどうかを判断することができません。

 

例えば、売上で考えると……

  • 売上が予定した予算を達成していない
  • ほぼ横ばいで推移していた売上が急激に悪化した

……などなど。

 

前者は、予定(未来)と実際のギャップ(差が大きい)場合に異常と見なしています。後者は、過去の傾向から大きくずれた場合に異常と見なしています。

 

データ分析

 

予定(未来)には、人の「思い」によるものと、数理モデルではじき出した「予測」によるものがあります。「予測」によるものの方が、異常の要因をデータから探りやすいです。人の「思い」にも、根拠の薄い思いと、しっかりとした根拠に裏付けられた思いによるものがあります。「思い」によるものでも、当然ですが「根拠に裏付けられた思い」の方が、異常の要因をデータから探りやすいです。

 

2.過去の傾向からの乖離

過去の傾向から大きくずれた状態を異常と見なす場合、どのようにして異常かどうかを判断するのか?一番簡単なのが、過去のデータ(時系列データ)の推移から探るやり方です。伝統的に、管理図というものを用います。

 

データ分析

 

管理図のデータをヒストグラムで表現すると、以下のようになります。

 

データ分析

 

このように、管理図やヒストグラムを使って異常検知をするのが、最も簡単です。ここで1つ気を付けるべきポイントがあります。管理図で見ていく指標は、横にランダムに振動しながら推移する指標です。上昇傾向や下降傾向、周期性のあるデータは、何かしらの処理を実施し、横にランダムに振動しながら推移する指標にします。

 

データ分析

 

では、どうやってそのような指標を作るの? という疑問を持たれた方もいると思いますが、ここでは説明を割愛します。ヒントを少しお話しすると、上手く時系列モデルを作りその残差を指標とすると、横にランダムに振動しながら推移する指標になります。

 

3.予測からの乖離(差)

予定(未来)と実際のギャップ(差が大きい)を異常と見なす場合、どのようにして異常かどうかを判断するのか?予定(未来)が、数理モデルではじき出した「予測」による場合、過去データから構築した時系列モデル(予測のための数理モデル)を用いてはじき出した予測値と実際の数値を比較し探ります。

 

データ分析

 

予測値と実際の値の差が大きければ異常と見なせるでしょう。統計学系の時系列モデル(予測のための数理モデル)であれば、予測区間を求めることが多くの場合できますので、例えばこの区間外であれば異常と見なしてもいいでしょう。ちなみに、この時系列モデル(予測のための数理モデル)は、「過去の傾向からの乖離」を探る場合にも当然使えます。と言うことは、この時系列モデ...

データ分析

 

ビジネス活動をしていると、何かしらの指標を眺めることが多々あります。例えば、売上や受注件数、問い合せ件数、サイトのPV(ページビュー)数などなど。多くの人は、子ども時代から、何かしらの指標を眺めて過ごしているでしょう。例えば、受験生であれば模擬テストの点数、受験生でなくても成績表の評価なども、ある種の指標です。指標の動きが想定通りであれば問題ありません。想定通りでない場合、多くの人は異常だと判断することでしょう。今回は、「あなたはどのようなときに指標が異常(問題が起こっている)と判断していますか?」というお話しをします。

 

【目次】
1.どういう状態を正とするのか?
2.過去の傾向からの乖離
3.予測からの乖離(差)
4.崩れた前提をデータで探る

【この連載の前回:データ分析講座(その244)ビジネスで活きる指標とは?へのリンク】

 

1.どういう状態を正とするのか?

繰り返しになりますが、指標の動きが想定通りであれば問題ありません。想定通りでない場合、多くの人は異常だと判断することでしょう。と言うことは、どのような指標の状態を正(想定通り)とするのかを定義しなければ、異常(問題が起こっている)かどうかを判断することができません。

 

例えば、売上で考えると……

  • 売上が予定した予算を達成していない
  • ほぼ横ばいで推移していた売上が急激に悪化した

……などなど。

 

前者は、予定(未来)と実際のギャップ(差が大きい)場合に異常と見なしています。後者は、過去の傾向から大きくずれた場合に異常と見なしています。

 

データ分析

 

予定(未来)には、人の「思い」によるものと、数理モデルではじき出した「予測」によるものがあります。「予測」によるものの方が、異常の要因をデータから探りやすいです。人の「思い」にも、根拠の薄い思いと、しっかりとした根拠に裏付けられた思いによるものがあります。「思い」によるものでも、当然ですが「根拠に裏付けられた思い」の方が、異常の要因をデータから探りやすいです。

 

2.過去の傾向からの乖離

過去の傾向から大きくずれた状態を異常と見なす場合、どのようにして異常かどうかを判断するのか?一番簡単なのが、過去のデータ(時系列データ)の推移から探るやり方です。伝統的に、管理図というものを用います。

 

データ分析

 

管理図のデータをヒストグラムで表現すると、以下のようになります。

 

データ分析

 

このように、管理図やヒストグラムを使って異常検知をするのが、最も簡単です。ここで1つ気を付けるべきポイントがあります。管理図で見ていく指標は、横にランダムに振動しながら推移する指標です。上昇傾向や下降傾向、周期性のあるデータは、何かしらの処理を実施し、横にランダムに振動しながら推移する指標にします。

 

データ分析

 

では、どうやってそのような指標を作るの? という疑問を持たれた方もいると思いますが、ここでは説明を割愛します。ヒントを少しお話しすると、上手く時系列モデルを作りその残差を指標とすると、横にランダムに振動しながら推移する指標になります。

 

3.予測からの乖離(差)

予定(未来)と実際のギャップ(差が大きい)を異常と見なす場合、どのようにして異常かどうかを判断するのか?予定(未来)が、数理モデルではじき出した「予測」による場合、過去データから構築した時系列モデル(予測のための数理モデル)を用いてはじき出した予測値と実際の数値を比較し探ります。

 

データ分析

 

予測値と実際の値の差が大きければ異常と見なせるでしょう。統計学系の時系列モデル(予測のための数理モデル)であれば、予測区間を求めることが多くの場合できますので、例えばこの区間外であれば異常と見なしてもいいでしょう。ちなみに、この時系列モデル(予測のための数理モデル)は、「過去の傾向からの乖離」を探る場合にも当然使えます。と言うことは、この時系列モデル(予測のための数理モデル)の残差をモニタリング指標としてウォッチすればOK、ということになります。

 

4.崩れた前提をデータで探る

指標が異常(問題が起こっている)の場合、何かしらの想定した前提が崩れています。その崩れた前提を探すのが要因分析です。例えば、「なぜなぜ分析」を実施します。要因を特定したら、どのように解決すべきかを考える必要がでてきます。例えば、「どうする分析」を実施します。

 

◆【特集】 連載記事紹介連載記事のタイトルをまとめて紹介、各タイトルから詳細解説に直リンク!!

◆データ分析講座の注目記事紹介

 

   続きを読むには・・・


この記事の著者

高橋 威知郎

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
データ分析の役回りとは データ分析講座(その125)

◆ データ分析はスゴイ狂言回し  嬉しいことに、近頃どうにかデータ活用できないものだろうかと模索する企業や人が増えています。例えばビッグデータ、デー...

◆ データ分析はスゴイ狂言回し  嬉しいことに、近頃どうにかデータ活用できないものだろうかと模索する企業や人が増えています。例えばビッグデータ、デー...


スモールデータとビッグデータの違いとは

   ビッグデータの活用と声高に叫ばれています。無論、自動的にビッグデータが取れれば多いに越したことはありませんが、スモールデータでも十分...

   ビッグデータの活用と声高に叫ばれています。無論、自動的にビッグデータが取れれば多いに越したことはありませんが、スモールデータでも十分...


現場の業務改善を目的としたデジタル技術の解説と活用例

  1.デジタル技術がもたらす変革 1.1 デジタル技術がもたらす変革の重要性 現代の製造業界では、デジタル技術が業務やプロセスの効率...

  1.デジタル技術がもたらす変革 1.1 デジタル技術がもたらす変革の重要性 現代の製造業界では、デジタル技術が業務やプロセスの効率...


「情報マネジメント一般」の活用事例

もっと見る
電子メール、簡潔過ぎると逆効果

◆電子メール:多忙な人に確実な返信をもらうテクニック  皆様は仕事で電子メールを一日に何通受信しますか、企業の従業員数、所属部署、職務、職位などでも...

◆電子メール:多忙な人に確実な返信をもらうテクニック  皆様は仕事で電子メールを一日に何通受信しますか、企業の従業員数、所属部署、職務、職位などでも...


情報、常識の検証を考える

1、勝ち組と負け組を支配する情報  皆さんがご存じの大手予備校有名講師である林先生が、かつてテレビで「情報」に関して興味深いことをおっしゃっており、...

1、勝ち組と負け組を支配する情報  皆さんがご存じの大手予備校有名講師である林先生が、かつてテレビで「情報」に関して興味深いことをおっしゃっており、...


個票データの共用化でコストダウン

 データ解析の効率は、生データとその整理の仕方で大きく異なると言えます。 例えば、アンケート結果は単なる生データであり、そのままでは解析出来ません。解析の...

 データ解析の効率は、生データとその整理の仕方で大きく異なると言えます。 例えば、アンケート結果は単なる生データであり、そのままでは解析出来ません。解析の...