データ活用プラットフォームとデータサイエンス データ分析講座(その298)

更新日

投稿日

データ分析講座(その298)データから垣間見る人間模様を想像する事象理解

 

データをいかに活用しビジネスを加速させればいいのか。そのためのツールとして、データ活用プラットフォームがあります。呼び方は様々で、単にデータプラットフォームと呼ばれたり、データ活用基盤と呼ばれたり、データマネジメントプラットフォームと呼ばれたり、色々です。

 

データ活用プラットフォームをどのように構築するのかは、ビジネスに重大な影響を与える可能性があるため、とても刺激的で、そして困難を伴うものです。データ活用プラットフォームの部品は、AWSやAzure、Google Cloudなどでクラウドサービスとして提供されているため、多くの場合はそれらを組み合わせれば十分でしょう。そういう意味では、非常に手軽にデータ活用プラットフォームを構築できるようになりました。今回は「データ活用プラットフォームとデータサイエンス」というお話しをします。

【目次】

     

    【この連載の前回:統計的機械学習で使用する混同行列と評価指標 データ分析講座(その297) へのリンク】

    ◆データ分析講座の注目記事紹介

     

    1. 何のためにデータ活用プラットフォームを作るのか?

    何のために、データ活用プラットフォームを構築するのでしょうか?理由は様々ですが、抽象的に表現すると「意思決定プロセスを支援しビジネス拡大するため」でしょう。意思決定プロセスのスピードや質などを向上させたり、効率化したり、といったところだと思います。要は「誰かが何かを判断し決めるときにデータに基づいたサポートをする」という感じです。そういうことは、すぐに実現できないため、当面の目的としては「データ分析作業の効率化」があげられます。

    まとめると次のようです。

    1. 短期的には、今やっている(もしくは、やろうとしている)「データ分析作業の効率化」
    2. 中長期的には、「意思決定プロセスを支援しビジネス拡大するため」

     

    2. データ活用プラットフォームのイメージ

    データ分析講座(その298)データ活用プラットフォームとデータサイエンス

    発生したデータが活用されるまでに、例えば、次のような幾つかのレイヤー(層)が必要になります。名称は、筆者が付けました。人により呼び方は異なると思います。

    • データ収集レイヤー
    • 統合レイヤー
    • 前処理レイヤー
    • ストレージレイヤー
    • アナリティクスレイヤー

     

    データ収集レイヤーとは、様々なデータソースを集めるレイヤーです。購買履歴データであったり、財務データであったり、Webログデータであったり、各種マーケティングデータだったりします。農作物で例えると、果物や野菜を収穫する感じです。

     

    それらのデータを統合するのが、統合レイヤーです。ETLと呼ばれる処理が実施されることが多いです。ETLとは、Extract(抽出)・Transform(変換)・Load(格納)の頭文字をとったものです。要は、データソースから必要なデータを抽出し変換し、そしてストレージに格納します。ETLは非常に地味ですが、非常に重要です。農作物で例えると、収穫した果物や野菜を選別し出荷した感じです。

     

    ストレージレイヤーとは、端的に言うとBIツールなどを接続するデータウェアハウスです。このデータウェアハウスに接続し、集計や分析、数理モデルなどの構築などを実施していきます。農作物で例えると、出荷された果物や野菜を格納する倉庫(ウェアハウス)といった感じです。

     

    前処理レイヤーでは、ストレージレイヤーのデータウェアハウスに接続し、前処理を実施します。

     

    統合レイヤーからストレージレイヤーに流れてきたデータは、畑から選別され出荷された果物や野菜のようなものです。そこにさらに何かしら処理を加えます。調理する人などが使いやすいように一手間二手間加えます。例えば、小分けにしてみたり、カットしてみたり、調理してみたりし、店先に並べます。

     

    データも同じで、統合レイヤーからストレージレイヤーに流れてきたデータ対し、データ活用する人などが使いやすいように一手間二手間加えます。それが前処理です。

     

    アナリティクスレイヤーとは、BIツールなどでストレージレイヤーのデータウェアハウスに接続して活用したり、データサイエンティストがストレージレイヤーのデータウェアハウスに接続して活用し高度なデータ分析や数理モデル構築などをしたりします。

     

    アナリティクスレイヤーで各種検討されたデータ分析方法や数理モデルなどの中には、定期的に実施するものが登場します。そういったものは、前処理レイヤーに移行します。そのとき、ほぼ人手から離れた状態にしておく必要があります。

     

    3. 制約事項と優先すべきお困りごと

    データ活用プラットフォームの構築を開始するとき、先ず明らかにすべきは、以下の2点です。

    •  ヒト・モノ・カネ・時間・技術などの制約事項 
    • 優先すべき「お困りごと」(ビジネス課題)

     

    ヒト・モノ・カネ・時間・技術などの制約事項とは、文字通り人的リソースや使える金銭的資源、社内人財だけでできそうなこと、外部に依頼したほうが良さそうなこと、必要な時間などです。優先すべき「お困りごと」(ビジネス課題)とは、データ活用のテーマを洗い出し、そこに優先順位を付けていくことです。いきなり、予測モデルや異常検知モデルなどの数理モデルを活用するテーマにするのではなく、集計ベースのデータ活用で実現できるテーマを選ぶなどをしたほうがいいでしょう。

     

    データ活用プラットフォームを構築することは、非常に刺激的ですが、困難を伴うものです。そこに、挑むデータ活用テーマそのものが難しいと、2重苦になります。そのため、データ活用プラットフォームを使ったデータ活用テーマは、最初は集計ベースのデータ活用で実現できるテーマを選ぶと良いでしょう。

     

    4. 長期的視点も忘れない

    先程、データ活用プラットフォームを作る理由として、 短期的には、今やっている(もしくは、やろうとしている)「データ分析作業の効率化」 中長期的には「意思決定プロセスを支援しビジネス拡大するため」と言いました。

     

    ...

    データ分析講座(その298)データから垣間見る人間模様を想像する事象理解

     

    データをいかに活用しビジネスを加速させればいいのか。そのためのツールとして、データ活用プラットフォームがあります。呼び方は様々で、単にデータプラットフォームと呼ばれたり、データ活用基盤と呼ばれたり、データマネジメントプラットフォームと呼ばれたり、色々です。

     

    データ活用プラットフォームをどのように構築するのかは、ビジネスに重大な影響を与える可能性があるため、とても刺激的で、そして困難を伴うものです。データ活用プラットフォームの部品は、AWSやAzure、Google Cloudなどでクラウドサービスとして提供されているため、多くの場合はそれらを組み合わせれば十分でしょう。そういう意味では、非常に手軽にデータ活用プラットフォームを構築できるようになりました。今回は「データ活用プラットフォームとデータサイエンス」というお話しをします。

    【目次】

       

      【この連載の前回:統計的機械学習で使用する混同行列と評価指標 データ分析講座(その297) へのリンク】

      ◆データ分析講座の注目記事紹介

       

      1. 何のためにデータ活用プラットフォームを作るのか?

      何のために、データ活用プラットフォームを構築するのでしょうか?理由は様々ですが、抽象的に表現すると「意思決定プロセスを支援しビジネス拡大するため」でしょう。意思決定プロセスのスピードや質などを向上させたり、効率化したり、といったところだと思います。要は「誰かが何かを判断し決めるときにデータに基づいたサポートをする」という感じです。そういうことは、すぐに実現できないため、当面の目的としては「データ分析作業の効率化」があげられます。

      まとめると次のようです。

      1. 短期的には、今やっている(もしくは、やろうとしている)「データ分析作業の効率化」
      2. 中長期的には、「意思決定プロセスを支援しビジネス拡大するため」

       

      2. データ活用プラットフォームのイメージ

      データ分析講座(その298)データ活用プラットフォームとデータサイエンス

      発生したデータが活用されるまでに、例えば、次のような幾つかのレイヤー(層)が必要になります。名称は、筆者が付けました。人により呼び方は異なると思います。

      • データ収集レイヤー
      • 統合レイヤー
      • 前処理レイヤー
      • ストレージレイヤー
      • アナリティクスレイヤー

       

      データ収集レイヤーとは、様々なデータソースを集めるレイヤーです。購買履歴データであったり、財務データであったり、Webログデータであったり、各種マーケティングデータだったりします。農作物で例えると、果物や野菜を収穫する感じです。

       

      それらのデータを統合するのが、統合レイヤーです。ETLと呼ばれる処理が実施されることが多いです。ETLとは、Extract(抽出)・Transform(変換)・Load(格納)の頭文字をとったものです。要は、データソースから必要なデータを抽出し変換し、そしてストレージに格納します。ETLは非常に地味ですが、非常に重要です。農作物で例えると、収穫した果物や野菜を選別し出荷した感じです。

       

      ストレージレイヤーとは、端的に言うとBIツールなどを接続するデータウェアハウスです。このデータウェアハウスに接続し、集計や分析、数理モデルなどの構築などを実施していきます。農作物で例えると、出荷された果物や野菜を格納する倉庫(ウェアハウス)といった感じです。

       

      前処理レイヤーでは、ストレージレイヤーのデータウェアハウスに接続し、前処理を実施します。

       

      統合レイヤーからストレージレイヤーに流れてきたデータは、畑から選別され出荷された果物や野菜のようなものです。そこにさらに何かしら処理を加えます。調理する人などが使いやすいように一手間二手間加えます。例えば、小分けにしてみたり、カットしてみたり、調理してみたりし、店先に並べます。

       

      データも同じで、統合レイヤーからストレージレイヤーに流れてきたデータ対し、データ活用する人などが使いやすいように一手間二手間加えます。それが前処理です。

       

      アナリティクスレイヤーとは、BIツールなどでストレージレイヤーのデータウェアハウスに接続して活用したり、データサイエンティストがストレージレイヤーのデータウェアハウスに接続して活用し高度なデータ分析や数理モデル構築などをしたりします。

       

      アナリティクスレイヤーで各種検討されたデータ分析方法や数理モデルなどの中には、定期的に実施するものが登場します。そういったものは、前処理レイヤーに移行します。そのとき、ほぼ人手から離れた状態にしておく必要があります。

       

      3. 制約事項と優先すべきお困りごと

      データ活用プラットフォームの構築を開始するとき、先ず明らかにすべきは、以下の2点です。

      •  ヒト・モノ・カネ・時間・技術などの制約事項 
      • 優先すべき「お困りごと」(ビジネス課題)

       

      ヒト・モノ・カネ・時間・技術などの制約事項とは、文字通り人的リソースや使える金銭的資源、社内人財だけでできそうなこと、外部に依頼したほうが良さそうなこと、必要な時間などです。優先すべき「お困りごと」(ビジネス課題)とは、データ活用のテーマを洗い出し、そこに優先順位を付けていくことです。いきなり、予測モデルや異常検知モデルなどの数理モデルを活用するテーマにするのではなく、集計ベースのデータ活用で実現できるテーマを選ぶなどをしたほうがいいでしょう。

       

      データ活用プラットフォームを構築することは、非常に刺激的ですが、困難を伴うものです。そこに、挑むデータ活用テーマそのものが難しいと、2重苦になります。そのため、データ活用プラットフォームを使ったデータ活用テーマは、最初は集計ベースのデータ活用で実現できるテーマを選ぶと良いでしょう。

       

      4. 長期的視点も忘れない

      先程、データ活用プラットフォームを作る理由として、 短期的には、今やっている(もしくは、やろうとしている)「データ分析作業の効率化」 中長期的には「意思決定プロセスを支援しビジネス拡大するため」と言いました。

       

      データ活用プラットフォームを構築し始めると、中長期的視点が記憶の彼方に行ってしまったり、恐ろしいことに短期的視点も消え去りさったりし、データ活用プラットフォームを構築することのみに目が行ってしまうことがあります。言いたいことは、長期的視点も忘れないように、ということです。

       

      先程「意思決定プロセスを支援しビジネス拡大するため」と抽象的に表現しましたが、この抽象的なものを可能にするため、どうすればいいでしょうか。答えは簡単で、より高度なデータ活用を可能にする柔軟かつスケーリング可能なデータ活用プラットフォームを作る、となります。

       

      そのためには「意思決定プロセスを支援しビジネス拡大するため」を具体化し、それらが構築中のデータ活用プラットフォームで実現可能なのかどうかを、チェックする必要がでてきます。データ活用プラットフォームは、データのサイロ化を打破するための1つとして作られる側面もありますが、データ活用プラットフォームそのものがサイロ化されないように気をつける必要があります。

       

      次回に続きます。

       

      【ものづくり セミナーサーチ】 セミナー紹介:国内最大級のセミナー掲載数 〈ものづくりセミナーサーチ〉 はこちら!

       

         続きを読むには・・・


      この記事の著者

      高橋 威知郎

      データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

      データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)


      「情報マネジメント一般」の他のキーワード解説記事

      もっと見る
      CRM(顧客関係管理システム)とは データ分析講座(その39)

      ◆ CRMのデータ分析をダメにする〇〇管理という合言葉、すぐできる解決策とは?  CRM(顧客関係管理システム)などでやたらと出てくる言葉に、「〇〇...

      ◆ CRMのデータ分析をダメにする〇〇管理という合言葉、すぐできる解決策とは?  CRM(顧客関係管理システム)などでやたらと出てくる言葉に、「〇〇...


      不均衡データへのアンダーサンプリングとは:データ分析講座(その347)

      【目次】 国内最多のものづくりに関するセミナー掲載中! ものづくりドットコムでは、製造業に関するセミナーを常時2,000件...

      【目次】 国内最多のものづくりに関するセミナー掲載中! ものづくりドットコムでは、製造業に関するセミナーを常時2,000件...


      効果検証のための回帰不連続デザイン分析 データ分析講座(その214)

        効果検証をする方法は色々あります。前回(第213話|データによる効果検証とネクストアクション)で上げたのが以下の3つです。 AB...

        効果検証をする方法は色々あります。前回(第213話|データによる効果検証とネクストアクション)で上げたのが以下の3つです。 AB...


      「情報マネジメント一般」の活用事例

      もっと見る
      P値で行う統計リテラシー判定

       「ピーチ」って聞いたら何を連想しますか、統計を学んでいる人に取っては「 P値 」が思い浮かぶはずです。統計学の素養がある程度備わっているか一言で知ろうと...

       「ピーチ」って聞いたら何を連想しますか、統計を学んでいる人に取っては「 P値 」が思い浮かぶはずです。統計学の素養がある程度備わっているか一言で知ろうと...


      中小製造業とIoTの波

       「IoT(アイオーティー)」の波が、中小製造業にどのような影響をおよぼすのか、具体的にどのような変化がこの業界に訪れるのかについて、解説します。   ...

       「IoT(アイオーティー)」の波が、中小製造業にどのような影響をおよぼすのか、具体的にどのような変化がこの業界に訪れるのかについて、解説します。   ...


      ‐情報収集で配慮すべき事項(第2回)‐  製品・技術開発力強化策の事例(その10)

       前回の事例その9に続いて解説します。ある目的で情報収集を開始する時には、始めに開発方針を明らかにして、目的意識を持って行動する必要があります。目的を明確...

       前回の事例その9に続いて解説します。ある目的で情報収集を開始する時には、始めに開発方針を明らかにして、目的意識を持って行動する必要があります。目的を明確...