点予測と区間予測 データ分析講座(その210)

更新日

投稿日

データ分析

 

よくデータサイエンスや機械学習などの技術を使い予測モデルを構築するケースも増えています。その中でよく目にするのが点予測です。点予測とは、「点」(1つのある数値)を予測することです。例えば、来年のこの事業の売上は100億であるとか、来月の店舗日販は50万円であるとか、そういったものです。

 

正直言って、点予測は当たることはありません。構築した予測モデルが悪いというのではなく、そういうものなのです。問題は、点予測を真であるかのように物事を進めることです。今回は、「点予測は100発0中が当たり前、であれば区間予測」というお話しをします。

 

【目次】

1.点予測は100発0中が当たり前
(1)区間予測とは?
(2)点予測は扱いやすい
(3)何が問題なのか?
2.区間予測の仕方

 

1.点予測は100発0中が当たり前

点予測とは、「点」(1つのある数値)を予測することです。例えば、明日の売上が53万2,871円(予測)である、といった感じで予測します。よくできた予測モデルであれば、近しい値になることでしょう。例えば、その日の売上が53万2,615円(実績)だった、という感じです。

 

しかし、予測と実績がどんなに近しい値になろうとも、ぴったり当たらなければ、予測結果が当たったとは言いません。要するに、このような点予測は100発0中が当たり前なのです。

 

(1)区間予測とは?

 

データ分析

 

予測には、点予測だけではありません。区間予測というものもあります。

 

区間予測とは、「点」(1つのある数値)の予測ではなく、幅のある予測をすることです。例えば、明日の売上が51万8,189円から54万1,178円(予測)である、といった感じで予測します。区間予測であれば、その日の売上が53万2,615円(実績)だった場合、予測結果が当たったと言えることでしょう。

 

(2)点予測は扱いやすい

正直、区間予測よりも点予測の方が分かりやすく説明しやすく、そして扱いやすいです。

 

明日の売上が53万2,871円(予測)である、といった感じで予測した場合、この売上の数値を前提に物事を計画し進めればいいからです。例えば、明日の売上が51万8,189円から54万1,178円(予測)である、といった感じの場合、この売上の区間を前提に物事を計画し進める必要があり、下限で物事を進めればいいのか、上限で物事を進めればいいのか、迷います。

 

(3)何が問題なのか?

点予測は何が問題なのでしょうか?

 

問題は、点予測を真であるかのように物事を進めることです。点予測の結果を真として、設備投資や広告宣伝などを考え痛い目に合うことがあります。例えば、広告宣伝に30億円かければ売上が100億円と予測したとしてます。100億円は点予測です。仮に区間予測したとき、90億円から110億円であれば点予測の結果を使っても問題ないかもしれません。

 

しかし、区間予測したら20億円から180億円だったらどうでしょうか。下手をすると、30億円の広告宣伝費で20億円の売上ということもあります。同じ点予測の値でも、区間予測したら幅が大きく異なることがあります。

 

区間予測の幅が小さいのであれば、点予測の値を真として物事を進めても問題ないかもしれませんが、区間予測の幅が広いとき気を付けた方がいいです。そのようなことを見極めるためにも、点予測だけでなく区間予測も見ておくといいでしょう。

 

2.区間予測の仕方

伝統的な統計学的な予測モデルの場合、ダイレクトに「予測区間」(信頼区間と予測区間は別ものです。混同されやすいので注意しましょう)というものを出力することができます。この「予測区間」を区間予測として利用するのが手っ取り早いです。多くの統計解析用のツールの場合、点予測と一緒に出力されます。

 

他には、感度解析することで区間予測する場合も多いです。昔からデータ分析を実施した人の多くは、普通に感度解析をしていましたが、最近は時間の都合なのか知らないだけなのか分かりませんが、感度解析する人の割合が微妙に減っている気がします。

 

感度解析とは、予測モデルの説明変数(...

データ分析

 

よくデータサイエンスや機械学習などの技術を使い予測モデルを構築するケースも増えています。その中でよく目にするのが点予測です。点予測とは、「点」(1つのある数値)を予測することです。例えば、来年のこの事業の売上は100億であるとか、来月の店舗日販は50万円であるとか、そういったものです。

 

正直言って、点予測は当たることはありません。構築した予測モデルが悪いというのではなく、そういうものなのです。問題は、点予測を真であるかのように物事を進めることです。今回は、「点予測は100発0中が当たり前、であれば区間予測」というお話しをします。

 

【目次】

1.点予測は100発0中が当たり前
(1)区間予測とは?
(2)点予測は扱いやすい
(3)何が問題なのか?
2.区間予測の仕方

 

1.点予測は100発0中が当たり前

点予測とは、「点」(1つのある数値)を予測することです。例えば、明日の売上が53万2,871円(予測)である、といった感じで予測します。よくできた予測モデルであれば、近しい値になることでしょう。例えば、その日の売上が53万2,615円(実績)だった、という感じです。

 

しかし、予測と実績がどんなに近しい値になろうとも、ぴったり当たらなければ、予測結果が当たったとは言いません。要するに、このような点予測は100発0中が当たり前なのです。

 

(1)区間予測とは?

 

データ分析

 

予測には、点予測だけではありません。区間予測というものもあります。

 

区間予測とは、「点」(1つのある数値)の予測ではなく、幅のある予測をすることです。例えば、明日の売上が51万8,189円から54万1,178円(予測)である、といった感じで予測します。区間予測であれば、その日の売上が53万2,615円(実績)だった場合、予測結果が当たったと言えることでしょう。

 

(2)点予測は扱いやすい

正直、区間予測よりも点予測の方が分かりやすく説明しやすく、そして扱いやすいです。

 

明日の売上が53万2,871円(予測)である、といった感じで予測した場合、この売上の数値を前提に物事を計画し進めればいいからです。例えば、明日の売上が51万8,189円から54万1,178円(予測)である、といった感じの場合、この売上の区間を前提に物事を計画し進める必要があり、下限で物事を進めればいいのか、上限で物事を進めればいいのか、迷います。

 

(3)何が問題なのか?

点予測は何が問題なのでしょうか?

 

問題は、点予測を真であるかのように物事を進めることです。点予測の結果を真として、設備投資や広告宣伝などを考え痛い目に合うことがあります。例えば、広告宣伝に30億円かければ売上が100億円と予測したとしてます。100億円は点予測です。仮に区間予測したとき、90億円から110億円であれば点予測の結果を使っても問題ないかもしれません。

 

しかし、区間予測したら20億円から180億円だったらどうでしょうか。下手をすると、30億円の広告宣伝費で20億円の売上ということもあります。同じ点予測の値でも、区間予測したら幅が大きく異なることがあります。

 

区間予測の幅が小さいのであれば、点予測の値を真として物事を進めても問題ないかもしれませんが、区間予測の幅が広いとき気を付けた方がいいです。そのようなことを見極めるためにも、点予測だけでなく区間予測も見ておくといいでしょう。

 

2.区間予測の仕方

伝統的な統計学的な予測モデルの場合、ダイレクトに「予測区間」(信頼区間と予測区間は別ものです。混同されやすいので注意しましょう)というものを出力することができます。この「予測区間」を区間予測として利用するのが手っ取り早いです。多くの統計解析用のツールの場合、点予測と一緒に出力されます。

 

他には、感度解析することで区間予測する場合も多いです。昔からデータ分析を実施した人の多くは、普通に感度解析をしていましたが、最近は時間の都合なのか知らないだけなのか分かりませんが、感度解析する人の割合が微妙に減っている気がします。

 

感度解析とは、予測モデルの説明変数(特徴量)やパラメータなどを色々変化させ、その予測結果の下限と上限を使い区間予測とするやり方です。

 

例えば、店舗のある日の売上をするとき、降雨量という説明変数(特徴量)を「0 mm/h」(晴れ)、「1 mm/h」(小雨)、「1 mm/h」(小雨)、「5 mm/h」(雨)、「10 mm/h」(やや強い雨)などと変化させて、日販予測をします。

 

この場合、幾つかのシナリオを作っておく必要があります。ちょっと敷居が高いですが、MCMC(Markov chain Monte Carlo methods、マルコフ連鎖モンテカルロ法)などで代表される乱数を使ったベイズ推定し求める予測モデルの場合、予測分布を出力することができます。この予測分布をもとに区間予測をすることもできます。

 

   続きを読むには・・・


この記事の著者

高橋 威知郎

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
小売の売上分析 データ分析講座(その87)

  ◆ 小売の売上分析、2つの指標だけで考える小売業の「データ分析的な戦略」  実践的なデータ分析・活用の話題です。小売店対象のお話で1店舗...

  ◆ 小売の売上分析、2つの指標だけで考える小売業の「データ分析的な戦略」  実践的なデータ分析・活用の話題です。小売店対象のお話で1店舗...


予測モデルの活用とは データ分析講座(その116)

◆ 予測モデルは帰納的に構築し演繹的に活用する。そして論理展開する。  データ分析・活用を推し進める時にある段階まで進むと、予測モデルが一つのトピッ...

◆ 予測モデルは帰納的に構築し演繹的に活用する。そして論理展開する。  データ分析・活用を推し進める時にある段階まで進むと、予測モデルが一つのトピッ...


ケーススタディ①「リード(見込み顧客)の選別」 データ分析講座(その187)

  データを使い販売力を効率的に高めるセールスアナリティクスには、3つの典型的なテーマがあります。   新規顧客の獲得 ...

  データを使い販売力を効率的に高めるセールスアナリティクスには、3つの典型的なテーマがあります。   新規顧客の獲得 ...


「情報マネジメント一般」の活用事例

もっと見る
‐販路開拓に関する問題 第2回‐ 製品・技術開発力強化策の事例(その18)

 販路開拓に関する問題点、次に示す4点について、第1回として、1と2項を解説しました。今回は、第2回として、3と4項を解説します。        1....

 販路開拓に関する問題点、次に示す4点について、第1回として、1と2項を解説しました。今回は、第2回として、3と4項を解説します。        1....


‐販路開拓に関する問題 第1回‐  製品・技術開発力強化策の事例(その17)

 前回の事例その16に続いて解説します。開発が完了したから販売先を探す。そのような考え方で開発に従事することは根本的に間違っている事は既に述べました。開発...

 前回の事例その16に続いて解説します。開発が完了したから販売先を探す。そのような考え方で開発に従事することは根本的に間違っている事は既に述べました。開発...


‐時代の流れを意識した開発テ-マの設定‐  製品・技術開発力強化策の事例(その5)

 前回の事例その4に続いて解説します。時代の流れに沿う開発テ-マとして、最近では、高齢者介護機器、環境関連機器、省エネ機器、情報技術(IT)等に関心が注が...

 前回の事例その4に続いて解説します。時代の流れに沿う開発テ-マとして、最近では、高齢者介護機器、環境関連機器、省エネ機器、情報技術(IT)等に関心が注が...