データ分析講座(その106) 機械学習とは

データ分析

◆ 機械学習と統計学のモデルの違い

 「機械学習と統計学のモデル、何が違うのですか」と質問をされることが度々あります。

 ここで言っている統計学のモデルとは、多変量解析などに代表される回帰モデルや判別モデル、クラスター分析、主成分分析などです。私の中では明確に違うものだったのですが、よくよく話しを聞いてみると「なるほど…」という感じでした。そこで、今回は「機械学習と統計学のモデルの違い」というお話しです。

 疑問の根本には「機械学習と統計学のモデルどちらにも似たような分析手法が登場する」というところにあるようです。例えば、書籍を読めば回帰モデルは統計学系の多変量解析の本や機械学習の本にも登場します。ニューラルネット系のモデルを回帰モデルの一種として扱う場合もあります。

1. 機械学習と統計学

 機械学習とは人工知能における研究課題の一つで、人間が自然に行っているような学習をコンピュータ上で実現しようとする技術です。一方、統計学(多変量解析などを含む)はデータの特徴や規則性などを見出すことを目的とした学問です。

 機械学習であるためには、何かしら「『学習』をコンピュータ上で実現」しなければなりません。そこに尽きると思います。

 統計学のモデルの目的は、少なくともコンピュータ上の「学習」を目的としていません。データの特徴や規則性を見出すことで、人の解釈がポイントになります。コンピュータが普及する以前から統計学は存在しました。統計学はコンピュータがあれば便利ですが、なくても構いません。

 実際、私が学生時代に手計算で平均値や分散を計算したり、回帰分析や分散分析、主成分分析などを行った記憶があります。しかし、コンピュータがないと機械学習は存在できないと思います。

2. 機械学習と統計学:回帰モデルを例に考える

 再度言います。機械学習であるためには、何かしら「『学習』をコンピュータ上で実現」しなければなりません。問題は何を学習するのかです。その学習する何かが、統計学の代表的な多変量解析手法である「回帰モデル」でも問題ありません。

 回帰モデルは、モデル式の定数と係数をデータから計算します。その「計算」を「学習」という言葉に言い換えれば、機械学習の数理モデルとしても問題なさそうです。「計算」を「学習」と言い換えるには何が必要でしょうか。

 では学習とは何でしょうか。直観的には分かりますが、厳密な定義というと言葉に表し憎いものです。Wikipediaには、以下のように記載されていました。

 『学習(がくしゅう)は、体験や伝聞などによる経験を蓄えることである。生理学や心理学においては、経験によって動物(人間を含め)の行動が変容することを指す。繰り返し行う学習を練習(れんしゅう)という。』こちらも、異論があるかもしれませんが、この定義をもとに話しを進めます。

3. 機械学習と統計学:蓄えたデータによって〇〇が変容する

 先ほどの定義から、以下の文章を抜粋して考えてみます。「経験によって動物(人間を含め)の行動が変容すること」この文章の前には、次のような文章も書かれています。「体験や伝聞などによる経験を蓄えること」体験をデータに置き換えれば、〇〇によるデータを蓄える。データによって〇〇が変容する。となるかと思います。つまり「蓄えたデータによって〇〇が変容する」ことなのでしょう。

 この「〇〇」に「回帰モデル」を代入すれば「蓄えたデータによって回帰モデルが変容する」となります。

 統計学的な目的で回帰モデルを利用する時、回帰モデル式の係数がどうだったのかなど、過去や現在の状況解釈のために利用します。解釈できれば、一旦はモデル式の構築は終了します。

 一方、機械学習の場合はどうでしょうか。新たにデータが蓄積されたタイミングで、回帰モデルの定数と係数を再度計算することでしょう。常に新しいデータを取り込んで、モデル式が日々進化していきます。この場合の用途は、解釈というよりも予測です。回帰モデルの数式を使い予測することができるからです。


この記事の著者

高橋 威知郎

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

無料会員登録でさらにあなたに特化した情報を手に入れましょう。

①「機械学習・ディープラーニング」の関連記事が掲載されたらメールでお知らせ

②専門家「高橋 威知郎」先生に記事内容について直接質問が可能

③他にも数々の特典があります。