データサイエンティストとは データ分析講座(その109)

更新日

投稿日

データ分析

◆ データサイエンティストとデータエンジニアは混同されやすい

 データサイエンティストは何者なのか…。最近、エンジニアである機械学習エンジニア(もしくはデータエンジニア)と、データサイエンティストが混同される不幸が、ちょいちょい見受けられます。似ているようで似ていない。そもそも、データサイエンティストはエンジニアではない。今回は「データサイエンティストとデータエンジニアは混同されやすい」というお話しをします。

1. データサイエンティスト:SAS社の定義

 定義は色々あります。以下はデータ分析系のツールの老舗、SAS社の定義です。

 データ・サイエンティストとは様々な意思決定の局面において、データに基づいて合理的な判断を行えるように意思決定者をサポートする職務またはそれを行う人のことです。

 細かい部分はさておき、異論のある人は少ないことでしょう。この定義から考えると、データサイエンティストの役割は「データに基づき合理的な判断を行えるように意思決定者をサポートする」ということになります。ポイントは「データに基づいて」という部分が他の意思決定をサポートする職務と異なります。

2. データサイエンティスト:私の定義

 私なりの定義を述べます。SAS社の定義プラスアルファな感じになります。

 データサイエンティストの役割は「意思決定者に対し、データに基づいた気の利いたレコメンド(勧める)する人(もしくは、その自動化を実現する人)」となるのではないかと思います。「サポート」を「レコメンド」としています。

3.「サポート」ではなく「レコメンド」

 おそらく「サポート」の中に「レコメンド」も含まれると思われます。

 「レコメンド」以外の「サポート」として、例えば「見える化」や「モニタリングレポートの作成」、「分析結果の提供」などもあることでしょう。しかし、具体的に何をすべきなのかが見えてこないと、ビジネス成果を掴むことはできません。では、どうすべきか、ということで、具体的に何をすべきなのかレコメンドすればいいとなります。

 レコメンドといっても、具体的にやるべきことをストレートに伝えることもありますし、やるべきことを考えさせる材料を提供するという方法もあることでしょう。つまり、提供された分析結果などを基に、何かしら意思決定する人(現場)が、何をすべきかを明確にすることができるという状態をつくれたら、それはレコメンドとなることでしょう。

4.「レコメンド」の例

 レコメンドには色々なやり方があります。具体的に一つだけアクション候補を提示する方法が最もシンプルです。また幅を持たせたり、複数の選択肢を提示する方法もよくあります。電車の経路検索や、ECサイトのレコメンド商品などを思い浮かべて頂けると分かりやすいことでしょう。

 分析レポートとして提供する場合「提言」という形でレコメンドをすることが多いことでしょう。レポートですのでその提言の数的根拠が提供されています。意思決定する人(現場)は、そのレポートに基づいて「あーでもない、こーでもない」と考え、実際にすべきことを検討していくことでしょう。最近ではBI(ビジネスインテリジェンス)のダッシュボード()として、分析レポートを提供するケースも増えています。ツール上で意思決定する人(現場)は直接深堀分析ができるのが特徴です。
ダッシュボード…複数の情報を一つにまとめ、一目でデータが把握できるようにする可視化ツール

5.データエンジニア

 データサイエンティストとデータエンジニアはコアスキルに違いがあり、コアスキルで比較するとその差が明確になります。データサイエンティストのコアスキルとは「数学や統計学(人によっては物理学)のバックグランドを持ち、高度な分析を実施したり、機械学習などのモデルを構築する」となるかと思います。

 データエンジニアのコアスキルとは「JavaやScala、Pythonなどプログラミングのバックグランドを持ち、分散シ...

データ分析

◆ データサイエンティストとデータエンジニアは混同されやすい

 データサイエンティストは何者なのか…。最近、エンジニアである機械学習エンジニア(もしくはデータエンジニア)と、データサイエンティストが混同される不幸が、ちょいちょい見受けられます。似ているようで似ていない。そもそも、データサイエンティストはエンジニアではない。今回は「データサイエンティストとデータエンジニアは混同されやすい」というお話しをします。

1. データサイエンティスト:SAS社の定義

 定義は色々あります。以下はデータ分析系のツールの老舗、SAS社の定義です。

 データ・サイエンティストとは様々な意思決定の局面において、データに基づいて合理的な判断を行えるように意思決定者をサポートする職務またはそれを行う人のことです。

 細かい部分はさておき、異論のある人は少ないことでしょう。この定義から考えると、データサイエンティストの役割は「データに基づき合理的な判断を行えるように意思決定者をサポートする」ということになります。ポイントは「データに基づいて」という部分が他の意思決定をサポートする職務と異なります。

2. データサイエンティスト:私の定義

 私なりの定義を述べます。SAS社の定義プラスアルファな感じになります。

 データサイエンティストの役割は「意思決定者に対し、データに基づいた気の利いたレコメンド(勧める)する人(もしくは、その自動化を実現する人)」となるのではないかと思います。「サポート」を「レコメンド」としています。

3.「サポート」ではなく「レコメンド」

 おそらく「サポート」の中に「レコメンド」も含まれると思われます。

 「レコメンド」以外の「サポート」として、例えば「見える化」や「モニタリングレポートの作成」、「分析結果の提供」などもあることでしょう。しかし、具体的に何をすべきなのかが見えてこないと、ビジネス成果を掴むことはできません。では、どうすべきか、ということで、具体的に何をすべきなのかレコメンドすればいいとなります。

 レコメンドといっても、具体的にやるべきことをストレートに伝えることもありますし、やるべきことを考えさせる材料を提供するという方法もあることでしょう。つまり、提供された分析結果などを基に、何かしら意思決定する人(現場)が、何をすべきかを明確にすることができるという状態をつくれたら、それはレコメンドとなることでしょう。

4.「レコメンド」の例

 レコメンドには色々なやり方があります。具体的に一つだけアクション候補を提示する方法が最もシンプルです。また幅を持たせたり、複数の選択肢を提示する方法もよくあります。電車の経路検索や、ECサイトのレコメンド商品などを思い浮かべて頂けると分かりやすいことでしょう。

 分析レポートとして提供する場合「提言」という形でレコメンドをすることが多いことでしょう。レポートですのでその提言の数的根拠が提供されています。意思決定する人(現場)は、そのレポートに基づいて「あーでもない、こーでもない」と考え、実際にすべきことを検討していくことでしょう。最近ではBI(ビジネスインテリジェンス)のダッシュボード()として、分析レポートを提供するケースも増えています。ツール上で意思決定する人(現場)は直接深堀分析ができるのが特徴です。
ダッシュボード…複数の情報を一つにまとめ、一目でデータが把握できるようにする可視化ツール

5.データエンジニア

 データサイエンティストとデータエンジニアはコアスキルに違いがあり、コアスキルで比較するとその差が明確になります。データサイエンティストのコアスキルとは「数学や統計学(人によっては物理学)のバックグランドを持ち、高度な分析を実施したり、機械学習などのモデルを構築する」となるかと思います。

 データエンジニアのコアスキルとは「JavaやScala、Pythonなどプログラミングのバックグランドを持ち、分散システムやビッグデータを専門とした高度なプログラミングやシステム構築のスキルを持つ」となるかと思います。

 よって、高度な分析を実施したりモデル構築をする人をデータサイエンティスト、それをシステム上で実現する人がデータエンジニアという感じになるかと思いますので、データサイエンティストに高度なプログラミングやシステム構築を期待するのは、違うということになります。

6. 混同されると不幸なことになる

 データを扱うという意味では同じですが、求められている仕事やキャリアパス、教育などを考えると大きく異なってきます。数学的なバックグランドの必要な、高度な分析やモデル構築をデータエンジニアに求めても酷というものです。またシステム構築や計算速度の高速化をデータサイエンティストに求めても同じです。実際「RやPythonなどの既存のライブラリーを使えば数学素養は必要ない! 」というわけにいかないのがデータ分析やモデル構築の世界です。

   続きを読むには・・・


この記事の著者

高橋 威知郎

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
データと洞察で戦略的意思決定を導く:データ分析講座(その333)

現代の急速に変化するビジネス環境で競争優位を保つためには、データとその中からの洞察を上手く活用することが不可欠です。データ駆動のアプローチが主流となる...

現代の急速に変化するビジネス環境で競争優位を保つためには、データとその中からの洞察を上手く活用することが不可欠です。データ駆動のアプローチが主流となる...


拡張分析とは:データ分析講座(その331)効率的なビジネス意思決定を支援

  ビジネスにおいてデータは重要な意思決定の礎となっています。しかし、そのデータに対する分析タスクと、分析した結果の解釈は、往々にして複雑...

  ビジネスにおいてデータは重要な意思決定の礎となっています。しかし、そのデータに対する分析タスクと、分析した結果の解釈は、往々にして複雑...


課題解決アプローチ データ分析講座(その101)

  ◆ データ分析を活用した「課題解決アプローチ」  データを上手く分析し、そして目の前にある課題を解決する。もっともベタで「何か特別な方法...

  ◆ データ分析を活用した「課題解決アプローチ」  データを上手く分析し、そして目の前にある課題を解決する。もっともベタで「何か特別な方法...


「情報マネジメント一般」の活用事例

もっと見る
ソフトウェア特許とは(その2)

4.ソフトウェア特許のとり方    前回のその1に続いて解説します。    ソフトウェア特許の取得方法にはノウハウがあります。特許のことを知らない...

4.ソフトウェア特許のとり方    前回のその1に続いて解説します。    ソフトウェア特許の取得方法にはノウハウがあります。特許のことを知らない...


‐情報収集で配慮すべき事項(第1回)‐  製品・技術開発力強化策の事例(その9)

 前回の事例その8に続いて解説します。ある目的で情報収集を開始する時には、始めに開発方針を明らかにして、目的意識を持って行動する必要があります。目的を明確...

 前回の事例その8に続いて解説します。ある目的で情報収集を開始する時には、始めに開発方針を明らかにして、目的意識を持って行動する必要があります。目的を明確...


デジタルデータの保存とは

        今回は、地震災害等を想定して、デジタルデータの保存に焦点を当てて、主なバックアップ方法と長所...

        今回は、地震災害等を想定して、デジタルデータの保存に焦点を当てて、主なバックアップ方法と長所...