教師あり・なし学習による異常検知とは:データ分析講座(その315)

投稿日

教師あり・なし学習による検知とは:データ分析講座(その315)

 

データサイエンスのビジネス活用が広まる中、最も活用されているものの1つが異常検知です。異常検知とは、膨大なデータの中から通常とは異なるものを特定すること、もしくはそのプロセスです。例えば、ECサイトをハッキングし不正な行動をする人は、通常の購入者と異なる購入パターン (購入金額や購入頻度、支払い方法、配送先住所、Cookieなど) を行う可能性があります。例えば、機器が故障する数日前から、機器内のセンサーデータのパターンが通常と異なる状態になる可能性があります。このような異常検知を、どのようなアルゴリズムで検出するのでしょうか。

 

日に数十レコードぐらいのデータ量であれば、人力でどうにかなるかもしれません。しかしデータ量が膨大で、数百万レコード、数十億レコードと、日々発生すると、人の目で見て判断するには限界があります。そのような場合、機械学習的なアプローチで実施するのが楽です。異常検知のアルゴリズムには色々ありますが、昔からあり比較的簡易なアプローチに、教師あり学習による異常検知と、教師なし学習による異常検知があります。今回は「教師あり異常検知と教師なし異常検知」というお話しをします。

 

【記事要約】
異常検知のアルゴリズム、簡易なアプローチである教師あり・なし学習による検知、このような異常検知を、どのようなアルゴリズムで検出するのか。データ量が膨大で、どのデータが異常で、どのデータが正常なのかラベリングされており、そのことから異常パターンがあらかじめ知りえるのであれば、教師あり学習による異常検知です。データ量が少なく、どのデータが異常で、どのデータが正常なのかラベリングされておらず、異常パターンが分からない場合には、教師なし学習による異常検知です。教師あり学習でしたらロジスティック回帰や決定木系など、教師なし学習でしたらクラスター分析や潜在クラス分析、混合正規分布モデルなどです。

【目次】

    1.「教師あり学習」と「教師なし学習」

    機械学習では、「教師あり学習」と「教師なし学習」というワードがでてきます。教師あり学習とは、教師ラベル(目的変数y)が付いたデータセットを学習に利用する機械学習アプローチです。

     

    (1)教師あり学習

    多くの場合、教師ラベル(目的変数y)に「異常」or「正常」の値が入ります。もしくは、異常を複数の複数の分類もしくはレベル分類されている場合には、その異常の種類やレベルを示す値が入ります。

    教師あり・なし学習による検知とは:データ分析講座(その315)

    このような機械学習問題を、分類問題と表現したりします。この教師ラベル(目的変数y)をもとに、異常検知のためのモデルを構築します。子どもたちが、正解のあるドリルを使い学習するのに似ています。

     

    (2)教師なし学習

    一方、教師なし学習とは、教師ラベル(目的変数y)が付いていないデータセットを学習に利用する機械学習アプローチです。要は、教師ラベル(目的変数y)が無いため、どのレコードが正常で、どのレコードが異常なのかは、あらかじめ分かりません。この状態で異常検知のためのモデルを構築します。

     

    2. 教師あり異常検知

    教師あり・なし学習による検知とは:データ分析講座(その315)

    教師あり異常検知は、教師あり学習で構築した数理モデルを活用し、異常検知をするアプローチです。学習で使うデータに教師ラベル(目的変数y)があることで、異常パターンがどのようなものなのかを知ることができます。そのことから、新たに手にしたデータが、異常なのか正常なのかを分類することができます。一般的には分類問題と言われ、多くの数理モデルが提案されています。古典的には、ロジスティック回帰モデルや決定木系のモデルなどが有名です。

     

    ただ、異常ラベルの付いたレコードと正常ラベルの付いたレコードが、バランスよく存在することは少なく、異常ラベルの付いたレコードが極端に少ないケースが多いです。そのため、異常ラベルの付いたレコードであるデータがある程度溜まるまで、データを蓄積し続けなければ、このアプローチは使えません。まとめると、教師あり異常検知は、異常パターンをあらかじめ知っていて、そのパターンに当てはまるかどうかを見ていく、ただしそのためにデータ量がすれなりに必要、そんな感じです。

     

    3. 教師なし異常検知

    教師あり・なし学習による検知とは:データ分析講座(その315)

    教師なし異常検知は、教師なし学習で構築した数理モデルを活用し、異常検知をするアプローチです。学習で使うデータに教師ラベル(目的変数y)がないため、異常パターンがどのようなものかを、事前に知ることはできません。しかし、ある1つのことは事前に知っています。それは、正常データと異なる、ということです。

     

    正常データと異なるため異常データと言われているので、当たり前と言えば当たり前ですが、そのことを利用します。そのため、手元に異常データがなくとも正常データさえあれば、異常検知をすることができ、学習データのデータ量も少なくてすみます。ちなみに、最もシンプルな方法は、似たようなパターンを持つレコードをグルーピングするクラスター分析を活用した方法です。

     

    クラスター分析を実施したとき、異常データは...

    教師あり・なし学習による検知とは:データ分析講座(その315)

     

    データサイエンスのビジネス活用が広まる中、最も活用されているものの1つが異常検知です。異常検知とは、膨大なデータの中から通常とは異なるものを特定すること、もしくはそのプロセスです。例えば、ECサイトをハッキングし不正な行動をする人は、通常の購入者と異なる購入パターン (購入金額や購入頻度、支払い方法、配送先住所、Cookieなど) を行う可能性があります。例えば、機器が故障する数日前から、機器内のセンサーデータのパターンが通常と異なる状態になる可能性があります。このような異常検知を、どのようなアルゴリズムで検出するのでしょうか。

     

    日に数十レコードぐらいのデータ量であれば、人力でどうにかなるかもしれません。しかしデータ量が膨大で、数百万レコード、数十億レコードと、日々発生すると、人の目で見て判断するには限界があります。そのような場合、機械学習的なアプローチで実施するのが楽です。異常検知のアルゴリズムには色々ありますが、昔からあり比較的簡易なアプローチに、教師あり学習による異常検知と、教師なし学習による異常検知があります。今回は「教師あり異常検知と教師なし異常検知」というお話しをします。

     

    【記事要約】
    異常検知のアルゴリズム、簡易なアプローチである教師あり・なし学習による検知、このような異常検知を、どのようなアルゴリズムで検出するのか。データ量が膨大で、どのデータが異常で、どのデータが正常なのかラベリングされており、そのことから異常パターンがあらかじめ知りえるのであれば、教師あり学習による異常検知です。データ量が少なく、どのデータが異常で、どのデータが正常なのかラベリングされておらず、異常パターンが分からない場合には、教師なし学習による異常検知です。教師あり学習でしたらロジスティック回帰や決定木系など、教師なし学習でしたらクラスター分析や潜在クラス分析、混合正規分布モデルなどです。

    【目次】

      1.「教師あり学習」と「教師なし学習」

      機械学習では、「教師あり学習」と「教師なし学習」というワードがでてきます。教師あり学習とは、教師ラベル(目的変数y)が付いたデータセットを学習に利用する機械学習アプローチです。

       

      (1)教師あり学習

      多くの場合、教師ラベル(目的変数y)に「異常」or「正常」の値が入ります。もしくは、異常を複数の複数の分類もしくはレベル分類されている場合には、その異常の種類やレベルを示す値が入ります。

      教師あり・なし学習による検知とは:データ分析講座(その315)

      このような機械学習問題を、分類問題と表現したりします。この教師ラベル(目的変数y)をもとに、異常検知のためのモデルを構築します。子どもたちが、正解のあるドリルを使い学習するのに似ています。

       

      (2)教師なし学習

      一方、教師なし学習とは、教師ラベル(目的変数y)が付いていないデータセットを学習に利用する機械学習アプローチです。要は、教師ラベル(目的変数y)が無いため、どのレコードが正常で、どのレコードが異常なのかは、あらかじめ分かりません。この状態で異常検知のためのモデルを構築します。

       

      2. 教師あり異常検知

      教師あり・なし学習による検知とは:データ分析講座(その315)

      教師あり異常検知は、教師あり学習で構築した数理モデルを活用し、異常検知をするアプローチです。学習で使うデータに教師ラベル(目的変数y)があることで、異常パターンがどのようなものなのかを知ることができます。そのことから、新たに手にしたデータが、異常なのか正常なのかを分類することができます。一般的には分類問題と言われ、多くの数理モデルが提案されています。古典的には、ロジスティック回帰モデルや決定木系のモデルなどが有名です。

       

      ただ、異常ラベルの付いたレコードと正常ラベルの付いたレコードが、バランスよく存在することは少なく、異常ラベルの付いたレコードが極端に少ないケースが多いです。そのため、異常ラベルの付いたレコードであるデータがある程度溜まるまで、データを蓄積し続けなければ、このアプローチは使えません。まとめると、教師あり異常検知は、異常パターンをあらかじめ知っていて、そのパターンに当てはまるかどうかを見ていく、ただしそのためにデータ量がすれなりに必要、そんな感じです。

       

      3. 教師なし異常検知

      教師あり・なし学習による検知とは:データ分析講座(その315)

      教師なし異常検知は、教師なし学習で構築した数理モデルを活用し、異常検知をするアプローチです。学習で使うデータに教師ラベル(目的変数y)がないため、異常パターンがどのようなものかを、事前に知ることはできません。しかし、ある1つのことは事前に知っています。それは、正常データと異なる、ということです。

       

      正常データと異なるため異常データと言われているので、当たり前と言えば当たり前ですが、そのことを利用します。そのため、手元に異常データがなくとも正常データさえあれば、異常検知をすることができ、学習データのデータ量も少なくてすみます。ちなみに、最もシンプルな方法は、似たようなパターンを持つレコードをグルーピングするクラスター分析を活用した方法です。

       

      クラスター分析を実施したとき、異常データは正常データと異なるグループ(クラスター)に属します。属するというか、ひとりぼっち状態に近くなります。他のクラスターから距離をとるようになります。ここであることに気を付けなければなりません。それは、正常データなのにひとりぼっちになることもある、ということです。そのため、教師あり異常検知に比べ、学習データの量は少なくて済みますが、精度面で劣ります。

       

      4. 完全な検知はありえない

      教師あり異常検知であろうが、教師なし異常検知であろうが、異常の完全な検知はありえません。多くの場合、異常かもしれないデータを発見し、そのデータが異常かどうかは人が判断します。要するに、異常検知は人が異常かどうかを判断する作業を、データサイエンス技術を駆使して、効率的に(もしくは楽に)する。
      異常検知の精度を高める。スピードを上げる。といった感じです。実際に、サイバーセキュリティ業務の中で、99%近く効率化した事例もあります。

       

      【ものづくり セミナーサーチ】 セミナー紹介:国内最大級のセミナー掲載数 〈ものづくりセミナーサーチ〉 はこちら!

       

         続きを読むには・・・


      この記事の著者

      高橋 威知郎

      データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

      データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)


      「情報マネジメント一般」の他のキーワード解説記事

      もっと見る
      最近多いケーススタディ②「広告・販促の最適投資配分」 データ分析講座(その189)

          データを使い販売力を効率的に高めるセールスアナリティクスには、次の典型的なテーマがあります。 新規顧客の獲得 ...

          データを使い販売力を効率的に高めるセールスアナリティクスには、次の典型的なテーマがあります。 新規顧客の獲得 ...


      比較というキーワードでチャレンジしよう データ分析講座(その289)

        データ分析の基本の1つが「比較」です。もちろん、分析の基本は「比較」だけではありませんし「比較」だけが重要なわけでもありません。実務で...

        データ分析の基本の1つが「比較」です。もちろん、分析の基本は「比較」だけではありませんし「比較」だけが重要なわけでもありません。実務で...


      国立国会図書館オンラインNDL-OPACとは 技術情報を調べる(その2)

         今回のテーマは、「技術情報を検索する」です。特許にかかわる方だけではなく、技術情報やビジネスの情報を調べたい方、研究開発に携わっ...

         今回のテーマは、「技術情報を検索する」です。特許にかかわる方だけではなく、技術情報やビジネスの情報を調べたい方、研究開発に携わっ...


      「情報マネジメント一般」の活用事例

      もっと見る
      現場情報の自動収集に道具だてを

       一日の作業指示の出し方で、次のどちらの組織の管理レベルの改善がより進むでしょうか?        ・A社 ➡「x製品を◯個」     ・B...

       一日の作業指示の出し方で、次のどちらの組織の管理レベルの改善がより進むでしょうか?        ・A社 ➡「x製品を◯個」     ・B...


      ソーシャルメディアデータの解析事例:異分野研究から得られる共通した目的とは

       2020年、コロナウィルス感染の問題が大きくなり始めた頃、少人数の開催ということで、ソーシャルメディアデータ解析を専門にされている先生の講演会を聞く...

       2020年、コロナウィルス感染の問題が大きくなり始めた頃、少人数の開催ということで、ソーシャルメディアデータ解析を専門にされている先生の講演会を聞く...


      ‐情報収集で配慮すべき事項(第3回)‐  製品・技術開発力強化策の事例(その11)

       前回の事例その10に続いて解説します。ある目的で情報収集を開始する時には、始めに開発方針を明らかにして、目的意識を持って行動する必要があります。目的を明...

       前回の事例その10に続いて解説します。ある目的で情報収集を開始する時には、始めに開発方針を明らかにして、目的意識を持って行動する必要があります。目的を明...