自動機械学習 データ分析講座(その184)

更新日

投稿日

 

 

◆ 古くて新しい自動機械学習

似たような数理モデルあり、その中から数理モデルを選択してモデル構築する場合のことです。このようなことを自動化したのが、自動機械学習(Automated Machine Learning)というものです。今回は「古くて新しい自動機械学習(Automated Machine Learning)」というお話しです。

【目次】

1.数理モデルの構築プロセス

2.有料ツール

3.無料ツール

4.ハイブリッドな使い方が一番いいかも

5.今回のまとめ

 

1.数理モデルの構築プロセス

 

データ分析

 

数理モデルを構築するプロセスは、例えば次のような感じではないでしょうか。

データ準備

前処理(データクレンジング含む)

特徴量生成・加工・選定

モデル選定・パラメータ最適化・モデル評価

デプロイ(展開)

 

昔からある「自動機械学習(Automated Machine Learning)」は「モデル選定・パラメータ最適化・モデル評価」の部分です。最近ですと「特徴量生成・加工・選定」のフィーチャーエンジニアリングの部分も対象にしているものもあるようです。しかしフィーチャーエンジニアリングの自動化は、まだ難しいのではないかと思います。

 

2.有料ツール

最近は、クラウド上で使える有料の自動機械学習(Automated Machine Learning)も出始めています。

有料版のもので、よく名前を聞くのが以下です。

  • AutoML Tables(Google)
  • AutoAI(IBM)
  • Automated ML(Microsoft)
  • DataRobot(DataRobot)
  • AutoFlow(MatrixFlow)
  • Driverless AI(H20.ai)

有料版だけあって、ユーザインターフェースが綺麗です。

 

3.無料ツール

データ分析や数理モデル構築といえば、最近ではRやPython、Juliaなどの無料で使えるものが多数あります。

自動機械学習(Automated Machine Learning)も例外ではなく、幾つかあります。RやPyhton上で動かすものです。

  • R automl
  • R RemixAutoML
  • AUTO-WEKA
  • Python auto-sklearn
  • Python TPOT

 

4.ハイブリッドな使い方が一番いいかも

恐らく、ある程度の数理モデル構築経験のある人であれば、自動機械学習(Automated Machine Learning)で構築した数理モデルの精度を超えることはできるでしょう。有料の自動機械学習(Automated Machine Learning)ツールの場合、安くはないです。無料あれば、コスト面を気にする必要はないことでしょう。しかし、RやPython上で実施するため、それなりのスキルは必要になります。

 

そうなると、無料版を使うとき初心者にはそれなりのハードルがあります。無料版の現状一番いい使い方は、ハイブリッドな使い方が一番いいかもしれません。手作りのモデル構築をサポートする形で、自動機械学習の機能を活用する、という感じです。

 

特に、「特徴量生成・加工・選定」のフィーチャーエンジニアリングの部分は、人手が必要な気がしま...

 

 

◆ 古くて新しい自動機械学習

似たような数理モデルあり、その中から数理モデルを選択してモデル構築する場合のことです。このようなことを自動化したのが、自動機械学習(Automated Machine Learning)というものです。今回は「古くて新しい自動機械学習(Automated Machine Learning)」というお話しです。

【目次】

1.数理モデルの構築プロセス

2.有料ツール

3.無料ツール

4.ハイブリッドな使い方が一番いいかも

5.今回のまとめ

 

1.数理モデルの構築プロセス

 

データ分析

 

数理モデルを構築するプロセスは、例えば次のような感じではないでしょうか。

データ準備

前処理(データクレンジング含む)

特徴量生成・加工・選定

モデル選定・パラメータ最適化・モデル評価

デプロイ(展開)

 

昔からある「自動機械学習(Automated Machine Learning)」は「モデル選定・パラメータ最適化・モデル評価」の部分です。最近ですと「特徴量生成・加工・選定」のフィーチャーエンジニアリングの部分も対象にしているものもあるようです。しかしフィーチャーエンジニアリングの自動化は、まだ難しいのではないかと思います。

 

2.有料ツール

最近は、クラウド上で使える有料の自動機械学習(Automated Machine Learning)も出始めています。

有料版のもので、よく名前を聞くのが以下です。

  • AutoML Tables(Google)
  • AutoAI(IBM)
  • Automated ML(Microsoft)
  • DataRobot(DataRobot)
  • AutoFlow(MatrixFlow)
  • Driverless AI(H20.ai)

有料版だけあって、ユーザインターフェースが綺麗です。

 

3.無料ツール

データ分析や数理モデル構築といえば、最近ではRやPython、Juliaなどの無料で使えるものが多数あります。

自動機械学習(Automated Machine Learning)も例外ではなく、幾つかあります。RやPyhton上で動かすものです。

  • R automl
  • R RemixAutoML
  • AUTO-WEKA
  • Python auto-sklearn
  • Python TPOT

 

4.ハイブリッドな使い方が一番いいかも

恐らく、ある程度の数理モデル構築経験のある人であれば、自動機械学習(Automated Machine Learning)で構築した数理モデルの精度を超えることはできるでしょう。有料の自動機械学習(Automated Machine Learning)ツールの場合、安くはないです。無料あれば、コスト面を気にする必要はないことでしょう。しかし、RやPython上で実施するため、それなりのスキルは必要になります。

 

そうなると、無料版を使うとき初心者にはそれなりのハードルがあります。無料版の現状一番いい使い方は、ハイブリッドな使い方が一番いいかもしれません。手作りのモデル構築をサポートする形で、自動機械学習の機能を活用する、という感じです。

 

特に、「特徴量生成・加工・選定」のフィーチャーエンジニアリングの部分は、人手が必要な気がします。

 

5.今回のまとめ

今回は「古くて新しい自動機械学習(Automated Machine Learning)」というお話しをしました。多くのツールは、「モデル選定・パラメータ最適化・モデル評価」の部分を自動化しています。中には、「モデル選定・パラメータ最適化・モデル評価」の前の「特徴量生成・加工・選定」の部分も対象にしているものもあるようです。素晴らしいことです。

 

現状一番いい使い方は、ハイブリッドな使い方が一番いいかもしれません。手作りのモデル構築をサポートする形で、自動機械学習の機能を活用する、という感じです。

 

   続きを読むには・・・


この記事の著者

高橋 威知郎

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
もっとも手軽なAIである異常検知 データ分析講座(その271)

  AIって何だろうと考えたとき、感覚的に思いつくことの1つとして「何かを教えてくれるコンピュータ上の何か」といのもあるのではないでしょう...

  AIって何だろうと考えたとき、感覚的に思いつくことの1つとして「何かを教えてくれるコンピュータ上の何か」といのもあるのではないでしょう...


データサイエンティスト必須のスキルとは データ分析講座(その119)

◆ データサイエンティストとゆかいな仲間たち  ビジネスの世界でデータサイエンスを実現するには、当然ながらデータサイエンティストは必須です。しかしデ...

◆ データサイエンティストとゆかいな仲間たち  ビジネスの世界でデータサイエンスを実現するには、当然ながらデータサイエンティストは必須です。しかしデ...


時系列予測モデルの複数先予測 データ分析講座(その262)

  ビジネス実務で昔からあるデータ活用の1つが時系列予測です。来月や来年の売上を予測したいであるとか、明日や来週のPVを予測したいであると...

  ビジネス実務で昔からあるデータ活用の1つが時系列予測です。来月や来年の売上を予測したいであるとか、明日や来週のPVを予測したいであると...


「情報マネジメント一般」の活用事例

もっと見る
人的資源マネジメント:データ指向ものづくりがもたらす高い生産性

 今、ものづくりの現場が目指すべきは「データ指向ものづくり」だと思います。 今回は、インダストリー4.0のような次世代ものづくりの大波への備えともなる 「...

 今、ものづくりの現場が目指すべきは「データ指向ものづくり」だと思います。 今回は、インダストリー4.0のような次世代ものづくりの大波への備えともなる 「...


デジタルデータの保存とは

        今回は、地震災害等を想定して、デジタルデータの保存に焦点を当てて、主なバックアップ方法と長所...

        今回は、地震災害等を想定して、デジタルデータの保存に焦点を当てて、主なバックアップ方法と長所...


Web上で試作受注するツールを成功させるポイントとは

        今回は、「Web上で試作受注するツール」を成功させるポイントについて解説します。次の2点がポイントで、この2つを「最優先」に考える必...

        今回は、「Web上で試作受注するツール」を成功させるポイントについて解説します。次の2点がポイントで、この2つを「最優先」に考える必...