自動機械学習 データ分析講座(その184)

更新日

投稿日

 

 

◆ 古くて新しい自動機械学習

似たような数理モデルあり、その中から数理モデルを選択してモデル構築する場合のことです。このようなことを自動化したのが、自動機械学習(Automated Machine Learning)というものです。今回は「古くて新しい自動機械学習(Automated Machine Learning)」というお話しです。

【目次】

1.数理モデルの構築プロセス

2.有料ツール

3.無料ツール

4.ハイブリッドな使い方が一番いいかも

5.今回のまとめ

 

1.数理モデルの構築プロセス

 

データ分析

 

数理モデルを構築するプロセスは、例えば次のような感じではないでしょうか。

データ準備

前処理(データクレンジング含む)

特徴量生成・加工・選定

モデル選定・パラメータ最適化・モデル評価

デプロイ(展開)

 

昔からある「自動機械学習(Automated Machine Learning)」は「モデル選定・パラメータ最適化・モデル評価」の部分です。最近ですと「特徴量生成・加工・選定」のフィーチャーエンジニアリングの部分も対象にしているものもあるようです。しかしフィーチャーエンジニアリングの自動化は、まだ難しいのではないかと思います。

 

2.有料ツール

最近は、クラウド上で使える有料の自動機械学習(Automated Machine Learning)も出始めています。

有料版のもので、よく名前を聞くのが以下です。

  • AutoML Tables(Google)
  • AutoAI(IBM)
  • Automated ML(Microsoft)
  • DataRobot(DataRobot)
  • AutoFlow(MatrixFlow)
  • Driverless AI(H20.ai)

有料版だけあって、ユーザインターフェースが綺麗です。

 

3.無料ツール

データ分析や数理モデル構築といえば、最近ではRやPython、Juliaなどの無料で使えるものが多数あります。

自動機械学習(Automated Machine Learning)も例外ではなく、幾つかあります。RやPyhton上で動かすものです。

  • R automl
  • R RemixAutoML
  • AUTO-WEKA
  • Python auto-sklearn
  • Python TPOT

 

4.ハイブリッドな使い方が一番いいかも

恐らく、ある程度の数理モデル構築経験のある人であれば、自動機械学習(Automated Machine Learning)で構築した数理モデルの精度を超えることはできるでしょう。有料の自動機械学習(Automated Machine Learning)ツールの場合、安くはないです。無料あれば、コスト面を気にする必要はないことでしょう。しかし、RやPython上で実施するため、それなりのスキルは必要になります。

 

そうなると、無料版を使うとき初心者にはそれなりのハードルがあります。無料版の現状一番いい使い方は、ハイブリッドな使い方が一番いいかもしれません。手作りのモデル構築をサポートする形で、自動機械学習の機能を活用する、という感じです。

 

特に、「特徴量生成・加工・選定」のフィーチャーエンジニアリングの部分は、人手が必要な気がしま...

 

 

◆ 古くて新しい自動機械学習

似たような数理モデルあり、その中から数理モデルを選択してモデル構築する場合のことです。このようなことを自動化したのが、自動機械学習(Automated Machine Learning)というものです。今回は「古くて新しい自動機械学習(Automated Machine Learning)」というお話しです。

【目次】

1.数理モデルの構築プロセス

2.有料ツール

3.無料ツール

4.ハイブリッドな使い方が一番いいかも

5.今回のまとめ

 

1.数理モデルの構築プロセス

 

データ分析

 

数理モデルを構築するプロセスは、例えば次のような感じではないでしょうか。

データ準備

前処理(データクレンジング含む)

特徴量生成・加工・選定

モデル選定・パラメータ最適化・モデル評価

デプロイ(展開)

 

昔からある「自動機械学習(Automated Machine Learning)」は「モデル選定・パラメータ最適化・モデル評価」の部分です。最近ですと「特徴量生成・加工・選定」のフィーチャーエンジニアリングの部分も対象にしているものもあるようです。しかしフィーチャーエンジニアリングの自動化は、まだ難しいのではないかと思います。

 

2.有料ツール

最近は、クラウド上で使える有料の自動機械学習(Automated Machine Learning)も出始めています。

有料版のもので、よく名前を聞くのが以下です。

  • AutoML Tables(Google)
  • AutoAI(IBM)
  • Automated ML(Microsoft)
  • DataRobot(DataRobot)
  • AutoFlow(MatrixFlow)
  • Driverless AI(H20.ai)

有料版だけあって、ユーザインターフェースが綺麗です。

 

3.無料ツール

データ分析や数理モデル構築といえば、最近ではRやPython、Juliaなどの無料で使えるものが多数あります。

自動機械学習(Automated Machine Learning)も例外ではなく、幾つかあります。RやPyhton上で動かすものです。

  • R automl
  • R RemixAutoML
  • AUTO-WEKA
  • Python auto-sklearn
  • Python TPOT

 

4.ハイブリッドな使い方が一番いいかも

恐らく、ある程度の数理モデル構築経験のある人であれば、自動機械学習(Automated Machine Learning)で構築した数理モデルの精度を超えることはできるでしょう。有料の自動機械学習(Automated Machine Learning)ツールの場合、安くはないです。無料あれば、コスト面を気にする必要はないことでしょう。しかし、RやPython上で実施するため、それなりのスキルは必要になります。

 

そうなると、無料版を使うとき初心者にはそれなりのハードルがあります。無料版の現状一番いい使い方は、ハイブリッドな使い方が一番いいかもしれません。手作りのモデル構築をサポートする形で、自動機械学習の機能を活用する、という感じです。

 

特に、「特徴量生成・加工・選定」のフィーチャーエンジニアリングの部分は、人手が必要な気がします。

 

5.今回のまとめ

今回は「古くて新しい自動機械学習(Automated Machine Learning)」というお話しをしました。多くのツールは、「モデル選定・パラメータ最適化・モデル評価」の部分を自動化しています。中には、「モデル選定・パラメータ最適化・モデル評価」の前の「特徴量生成・加工・選定」の部分も対象にしているものもあるようです。素晴らしいことです。

 

現状一番いい使い方は、ハイブリッドな使い方が一番いいかもしれません。手作りのモデル構築をサポートする形で、自動機械学習の機能を活用する、という感じです。

 

   続きを読むには・・・


この記事の著者

高橋 威知郎

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
見える化の魔力 データ分析講座(その218)

  【この連載の前回:データ分析講座(その217)なぜ、開票率数%で当確なのか?へのリンク】 データ活用をするとき、「見える化」というキ...

  【この連載の前回:データ分析講座(その217)なぜ、開票率数%で当確なのか?へのリンク】 データ活用をするとき、「見える化」というキ...


データサイエンス人財の育成 データ分析講座(その166)

  ◆ 社内育成で立ちはだかるいくつかの壁  社内でデータ活用を推進しようということで、データサイエンス人財を社内に抱えようという動きが...

  ◆ 社内育成で立ちはだかるいくつかの壁  社内でデータ活用を推進しようということで、データサイエンス人財を社内に抱えようという動きが...


時系列性を加味した因果推論でよく利用されるSC法 データ分析講座(その302)

  前回のデータ分析講座(その301)ABテストからExcelでも出来る差の差推定へで、ABテストにおいて時系列性(Before&...

  前回のデータ分析講座(その301)ABテストからExcelでも出来る差の差推定へで、ABテストにおいて時系列性(Before&...


「情報マネジメント一般」の活用事例

もっと見る
たかがWord、されどWord

 マイクロソフトOfficeはどこでも使われているので、ITリテラシーとしてWordを使えることが求められます。『 Wordが使える 』と言っても、そのレ...

 マイクロソフトOfficeはどこでも使われているので、ITリテラシーとしてWordを使えることが求められます。『 Wordが使える 』と言っても、そのレ...


情報システム導入企業の悩みとは

        今回は、次の事例から、自社の生産システムにあった生産管理ソフトの選択をどうすべきかを解説します。   1. 想定事例  電...

        今回は、次の事例から、自社の生産システムにあった生産管理ソフトの選択をどうすべきかを解説します。   1. 想定事例  電...


ソフトウェア特許とは(その1)

 色々と定義はありますが、ソフトウェア特許とは、よく言うビジネスモデル特許であり、情報システムの特許です。言葉に差はあると思いますが、我々実務家は、ソフト...

 色々と定義はありますが、ソフトウェア特許とは、よく言うビジネスモデル特許であり、情報システムの特許です。言葉に差はあると思いますが、我々実務家は、ソフト...