自動機械学習 データ分析講座(その184)

更新日

投稿日

 

 

◆ 古くて新しい自動機械学習

似たような数理モデルあり、その中から数理モデルを選択してモデル構築する場合のことです。このようなことを自動化したのが、自動機械学習(Automated Machine Learning)というものです。今回は「古くて新しい自動機械学習(Automated Machine Learning)」というお話しです。

【目次】

1.数理モデルの構築プロセス

2.有料ツール

3.無料ツール

4.ハイブリッドな使い方が一番いいかも

5.今回のまとめ

 

1.数理モデルの構築プロセス

 

データ分析

 

数理モデルを構築するプロセスは、例えば次のような感じではないでしょうか。

データ準備

前処理(データクレンジング含む)

特徴量生成・加工・選定

モデル選定・パラメータ最適化・モデル評価

デプロイ(展開)

 

昔からある「自動機械学習(Automated Machine Learning)」は「モデル選定・パラメータ最適化・モデル評価」の部分です。最近ですと「特徴量生成・加工・選定」のフィーチャーエンジニアリングの部分も対象にしているものもあるようです。しかしフィーチャーエンジニアリングの自動化は、まだ難しいのではないかと思います。

 

2.有料ツール

最近は、クラウド上で使える有料の自動機械学習(Automated Machine Learning)も出始めています。

有料版のもので、よく名前を聞くのが以下です。

  • AutoML Tables(Google)
  • AutoAI(IBM)
  • Automated ML(Microsoft)
  • DataRobot(DataRobot)
  • AutoFlow(MatrixFlow)
  • Driverless AI(H20.ai)

有料版だけあって、ユーザインターフェースが綺麗です。

 

3.無料ツール

データ分析や数理モデル構築といえば、最近ではRやPython、Juliaなどの無料で使えるものが多数あります。

自動機械学習(Automated Machine Learning)も例外ではなく、幾つかあります。RやPyhton上で動かすものです。

  • R automl
  • R RemixAutoML
  • AUTO-WEKA
  • Python auto-sklearn
  • Python TPOT

 

4.ハイブリッドな使い方が一番いいかも

恐らく、ある程度の数理モデル構築経験のある人であれば、自動機械学習(Automated Machine Learning)で構築した数理モデルの精度を超えることはできるでしょう。有料の自動機械学習(Automated Machine Learning)ツールの場合、安くはないです。無料あれば、コスト面を気にする必要はないことでしょう。しかし、RやPython上で実施するため、それなりのスキルは必要になります。

 

そうなると、無料版を使うとき初心者にはそれなりのハードルがあります。無料版の現状一番いい使い方は、ハイブリッドな使い方が一番いいかもしれません。手作りのモデル構築をサポートする形で、自動機械学習の機能を活用する、という感じです。

 

特に、「特徴量生成・加工・選定」のフィーチャーエンジニアリングの部分は、人手が必要な気がしま...

 

 

◆ 古くて新しい自動機械学習

似たような数理モデルあり、その中から数理モデルを選択してモデル構築する場合のことです。このようなことを自動化したのが、自動機械学習(Automated Machine Learning)というものです。今回は「古くて新しい自動機械学習(Automated Machine Learning)」というお話しです。

【目次】

1.数理モデルの構築プロセス

2.有料ツール

3.無料ツール

4.ハイブリッドな使い方が一番いいかも

5.今回のまとめ

 

1.数理モデルの構築プロセス

 

データ分析

 

数理モデルを構築するプロセスは、例えば次のような感じではないでしょうか。

データ準備

前処理(データクレンジング含む)

特徴量生成・加工・選定

モデル選定・パラメータ最適化・モデル評価

デプロイ(展開)

 

昔からある「自動機械学習(Automated Machine Learning)」は「モデル選定・パラメータ最適化・モデル評価」の部分です。最近ですと「特徴量生成・加工・選定」のフィーチャーエンジニアリングの部分も対象にしているものもあるようです。しかしフィーチャーエンジニアリングの自動化は、まだ難しいのではないかと思います。

 

2.有料ツール

最近は、クラウド上で使える有料の自動機械学習(Automated Machine Learning)も出始めています。

有料版のもので、よく名前を聞くのが以下です。

  • AutoML Tables(Google)
  • AutoAI(IBM)
  • Automated ML(Microsoft)
  • DataRobot(DataRobot)
  • AutoFlow(MatrixFlow)
  • Driverless AI(H20.ai)

有料版だけあって、ユーザインターフェースが綺麗です。

 

3.無料ツール

データ分析や数理モデル構築といえば、最近ではRやPython、Juliaなどの無料で使えるものが多数あります。

自動機械学習(Automated Machine Learning)も例外ではなく、幾つかあります。RやPyhton上で動かすものです。

  • R automl
  • R RemixAutoML
  • AUTO-WEKA
  • Python auto-sklearn
  • Python TPOT

 

4.ハイブリッドな使い方が一番いいかも

恐らく、ある程度の数理モデル構築経験のある人であれば、自動機械学習(Automated Machine Learning)で構築した数理モデルの精度を超えることはできるでしょう。有料の自動機械学習(Automated Machine Learning)ツールの場合、安くはないです。無料あれば、コスト面を気にする必要はないことでしょう。しかし、RやPython上で実施するため、それなりのスキルは必要になります。

 

そうなると、無料版を使うとき初心者にはそれなりのハードルがあります。無料版の現状一番いい使い方は、ハイブリッドな使い方が一番いいかもしれません。手作りのモデル構築をサポートする形で、自動機械学習の機能を活用する、という感じです。

 

特に、「特徴量生成・加工・選定」のフィーチャーエンジニアリングの部分は、人手が必要な気がします。

 

5.今回のまとめ

今回は「古くて新しい自動機械学習(Automated Machine Learning)」というお話しをしました。多くのツールは、「モデル選定・パラメータ最適化・モデル評価」の部分を自動化しています。中には、「モデル選定・パラメータ最適化・モデル評価」の前の「特徴量生成・加工・選定」の部分も対象にしているものもあるようです。素晴らしいことです。

 

現状一番いい使い方は、ハイブリッドな使い方が一番いいかもしれません。手作りのモデル構築をサポートする形で、自動機械学習の機能を活用する、という感じです。

 

   続きを読むには・・・


この記事の著者

高橋 威知郎

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
分析結果で今までの業務のどの部分がどのように変わるのか データ分析講座(その78)

◆ 分析結果を丸投げされ困惑する現場の人々  データ分析した結果を見える化すれば何とかなるでしょうか。日販や受注件数、コンバージョン数などの指標や、...

◆ 分析結果を丸投げされ困惑する現場の人々  データ分析した結果を見える化すれば何とかなるでしょうか。日販や受注件数、コンバージョン数などの指標や、...


データ分析経験者の中途採用 データ分析講座(その60)

◆ 売上分析やマーケティングのデータ分析で成果を出したいなら、OUTPUTよりもOUTCOMEにこだわれ  データを集めたけど…&he...

◆ 売上分析やマーケティングのデータ分析で成果を出したいなら、OUTPUTよりもOUTCOMEにこだわれ  データを集めたけど…&he...


データによる仮説検証の3段階アプローチ データ分析講座(その248)

  仮説を立てて、データで検証する場合、既にある過去データで検証する方法と、これから新たにデータ取得し検証する方法があります。さらに、これ...

  仮説を立てて、データで検証する場合、既にある過去データで検証する方法と、これから新たにデータ取得し検証する方法があります。さらに、これ...


「情報マネジメント一般」の活用事例

もっと見る
ソーシャルメディアデータの解析事例:異分野研究から得られる共通した目的とは

 2020年、コロナウィルス感染の問題が大きくなり始めた頃、少人数の開催ということで、ソーシャルメディアデータ解析を専門にされている先生の講演会を聞く...

 2020年、コロナウィルス感染の問題が大きくなり始めた頃、少人数の開催ということで、ソーシャルメディアデータ解析を専門にされている先生の講演会を聞く...


たかがWord、されどWord

 マイクロソフトOfficeはどこでも使われているので、ITリテラシーとしてWordを使えることが求められます。『 Wordが使える 』と言っても、そのレ...

 マイクロソフトOfficeはどこでも使われているので、ITリテラシーとしてWordを使えることが求められます。『 Wordが使える 』と言っても、そのレ...


レストランでのタブレット端末

        最近、テーブルにタブレット端末を置くレストランが増えています。レストラン利用者としては、ウェ...

        最近、テーブルにタブレット端末を置くレストランが増えています。レストラン利用者としては、ウェ...