点予測と区間予測 データ分析講座(その210)

更新日

投稿日

データ分析

 

よくデータサイエンスや機械学習などの技術を使い予測モデルを構築するケースも増えています。その中でよく目にするのが点予測です。点予測とは、「点」(1つのある数値)を予測することです。例えば、来年のこの事業の売上は100億であるとか、来月の店舗日販は50万円であるとか、そういったものです。

 

正直言って、点予測は当たることはありません。構築した予測モデルが悪いというのではなく、そういうものなのです。問題は、点予測を真であるかのように物事を進めることです。今回は、「点予測は100発0中が当たり前、であれば区間予測」というお話しをします。

 

【目次】

1.点予測は100発0中が当たり前
(1)区間予測とは?
(2)点予測は扱いやすい
(3)何が問題なのか?
2.区間予測の仕方

 

1.点予測は100発0中が当たり前

点予測とは、「点」(1つのある数値)を予測することです。例えば、明日の売上が53万2,871円(予測)である、といった感じで予測します。よくできた予測モデルであれば、近しい値になることでしょう。例えば、その日の売上が53万2,615円(実績)だった、という感じです。

 

しかし、予測と実績がどんなに近しい値になろうとも、ぴったり当たらなければ、予測結果が当たったとは言いません。要するに、このような点予測は100発0中が当たり前なのです。

 

(1)区間予測とは?

 

データ分析

 

予測には、点予測だけではありません。区間予測というものもあります。

 

区間予測とは、「点」(1つのある数値)の予測ではなく、幅のある予測をすることです。例えば、明日の売上が51万8,189円から54万1,178円(予測)である、といった感じで予測します。区間予測であれば、その日の売上が53万2,615円(実績)だった場合、予測結果が当たったと言えることでしょう。

 

(2)点予測は扱いやすい

正直、区間予測よりも点予測の方が分かりやすく説明しやすく、そして扱いやすいです。

 

明日の売上が53万2,871円(予測)である、といった感じで予測した場合、この売上の数値を前提に物事を計画し進めればいいからです。例えば、明日の売上が51万8,189円から54万1,178円(予測)である、といった感じの場合、この売上の区間を前提に物事を計画し進める必要があり、下限で物事を進めればいいのか、上限で物事を進めればいいのか、迷います。

 

(3)何が問題なのか?

点予測は何が問題なのでしょうか?

 

問題は、点予測を真であるかのように物事を進めることです。点予測の結果を真として、設備投資や広告宣伝などを考え痛い目に合うことがあります。例えば、広告宣伝に30億円かければ売上が100億円と予測したとしてます。100億円は点予測です。仮に区間予測したとき、90億円から110億円であれば点予測の結果を使っても問題ないかもしれません。

 

しかし、区間予測したら20億円から180億円だったらどうでしょうか。下手をすると、30億円の広告宣伝費で20億円の売上ということもあります。同じ点予測の値でも、区間予測したら幅が大きく異なることがあります。

 

区間予測の幅が小さいのであれば、点予測の値を真として物事を進めても問題ないかもしれませんが、区間予測の幅が広いとき気を付けた方がいいです。そのようなことを見極めるためにも、点予測だけでなく区間予測も見ておくといいでしょう。

 

2.区間予測の仕方

伝統的な統計学的な予測モデルの場合、ダイレクトに「予測区間」(信頼区間と予測区間は別ものです。混同されやすいので注意しましょう)というものを出力することができます。この「予測区間」を区間予測として利用するのが手っ取り早いです。多くの統計解析用のツールの場合、点予測と一緒に出力されます。

 

他には、感度解析することで区間予測する場合も多いです。昔からデータ分析を実施した人の多くは、普通に感度解析をしていましたが、最近は時間の都合なのか知らないだけなのか分かりませんが、感度解析する人の割合が微妙に減っている気がします。

 

感度解析とは、予測モデルの説明変数(...

データ分析

 

よくデータサイエンスや機械学習などの技術を使い予測モデルを構築するケースも増えています。その中でよく目にするのが点予測です。点予測とは、「点」(1つのある数値)を予測することです。例えば、来年のこの事業の売上は100億であるとか、来月の店舗日販は50万円であるとか、そういったものです。

 

正直言って、点予測は当たることはありません。構築した予測モデルが悪いというのではなく、そういうものなのです。問題は、点予測を真であるかのように物事を進めることです。今回は、「点予測は100発0中が当たり前、であれば区間予測」というお話しをします。

 

【目次】

1.点予測は100発0中が当たり前
(1)区間予測とは?
(2)点予測は扱いやすい
(3)何が問題なのか?
2.区間予測の仕方

 

1.点予測は100発0中が当たり前

点予測とは、「点」(1つのある数値)を予測することです。例えば、明日の売上が53万2,871円(予測)である、といった感じで予測します。よくできた予測モデルであれば、近しい値になることでしょう。例えば、その日の売上が53万2,615円(実績)だった、という感じです。

 

しかし、予測と実績がどんなに近しい値になろうとも、ぴったり当たらなければ、予測結果が当たったとは言いません。要するに、このような点予測は100発0中が当たり前なのです。

 

(1)区間予測とは?

 

データ分析

 

予測には、点予測だけではありません。区間予測というものもあります。

 

区間予測とは、「点」(1つのある数値)の予測ではなく、幅のある予測をすることです。例えば、明日の売上が51万8,189円から54万1,178円(予測)である、といった感じで予測します。区間予測であれば、その日の売上が53万2,615円(実績)だった場合、予測結果が当たったと言えることでしょう。

 

(2)点予測は扱いやすい

正直、区間予測よりも点予測の方が分かりやすく説明しやすく、そして扱いやすいです。

 

明日の売上が53万2,871円(予測)である、といった感じで予測した場合、この売上の数値を前提に物事を計画し進めればいいからです。例えば、明日の売上が51万8,189円から54万1,178円(予測)である、といった感じの場合、この売上の区間を前提に物事を計画し進める必要があり、下限で物事を進めればいいのか、上限で物事を進めればいいのか、迷います。

 

(3)何が問題なのか?

点予測は何が問題なのでしょうか?

 

問題は、点予測を真であるかのように物事を進めることです。点予測の結果を真として、設備投資や広告宣伝などを考え痛い目に合うことがあります。例えば、広告宣伝に30億円かければ売上が100億円と予測したとしてます。100億円は点予測です。仮に区間予測したとき、90億円から110億円であれば点予測の結果を使っても問題ないかもしれません。

 

しかし、区間予測したら20億円から180億円だったらどうでしょうか。下手をすると、30億円の広告宣伝費で20億円の売上ということもあります。同じ点予測の値でも、区間予測したら幅が大きく異なることがあります。

 

区間予測の幅が小さいのであれば、点予測の値を真として物事を進めても問題ないかもしれませんが、区間予測の幅が広いとき気を付けた方がいいです。そのようなことを見極めるためにも、点予測だけでなく区間予測も見ておくといいでしょう。

 

2.区間予測の仕方

伝統的な統計学的な予測モデルの場合、ダイレクトに「予測区間」(信頼区間と予測区間は別ものです。混同されやすいので注意しましょう)というものを出力することができます。この「予測区間」を区間予測として利用するのが手っ取り早いです。多くの統計解析用のツールの場合、点予測と一緒に出力されます。

 

他には、感度解析することで区間予測する場合も多いです。昔からデータ分析を実施した人の多くは、普通に感度解析をしていましたが、最近は時間の都合なのか知らないだけなのか分かりませんが、感度解析する人の割合が微妙に減っている気がします。

 

感度解析とは、予測モデルの説明変数(特徴量)やパラメータなどを色々変化させ、その予測結果の下限と上限を使い区間予測とするやり方です。

 

例えば、店舗のある日の売上をするとき、降雨量という説明変数(特徴量)を「0 mm/h」(晴れ)、「1 mm/h」(小雨)、「1 mm/h」(小雨)、「5 mm/h」(雨)、「10 mm/h」(やや強い雨)などと変化させて、日販予測をします。

 

この場合、幾つかのシナリオを作っておく必要があります。ちょっと敷居が高いですが、MCMC(Markov chain Monte Carlo methods、マルコフ連鎖モンテカルロ法)などで代表される乱数を使ったベイズ推定し求める予測モデルの場合、予測分布を出力することができます。この予測分布をもとに区間予測をすることもできます。

 

   続きを読むには・・・


この記事の著者

高橋 威知郎

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
不均衡データへのアンダーサンプリングとは:データ分析講座(その347)

【目次】 国内最多のものづくりに関するセミナー掲載中! ものづくりドットコムでは、製造業に関するセミナーを常時2,000件...

【目次】 国内最多のものづくりに関するセミナー掲載中! ものづくりドットコムでは、製造業に関するセミナーを常時2,000件...


経営と組織の整合性を保つ、データによる意思決定推進とは:データ分析講座(その344)

【目次】   国内最多のものづくりに関するセミナー掲載中! ものづくりドットコムでは、製造業に関するセミナーを...

【目次】   国内最多のものづくりに関するセミナー掲載中! ものづくりドットコムでは、製造業に関するセミナーを...


問題はデータ分析結果を活用しないこと データ分析講座(その99)

◆ 「この分析結果は当たり前」と言われた時が実はチャンス  今回は「この分析結果は当たり前」と言われた時が実はチャンス」というお話しです。当然と言え...

◆ 「この分析結果は当たり前」と言われた時が実はチャンス  今回は「この分析結果は当たり前」と言われた時が実はチャンス」というお話しです。当然と言え...


「情報マネジメント一般」の活用事例

もっと見る
人的資源マネジメント:製品開発の滞留を引き起こすファイルとは(その2)

 今回は、PDM/PLMに代表される製品開発業務のIT化をどのように考え、進めるのがよいのかについて解説します。    前回まで続けていたテ...

 今回は、PDM/PLMに代表される製品開発業務のIT化をどのように考え、進めるのがよいのかについて解説します。    前回まで続けていたテ...


デジタルデータの保存とは

        今回は、地震災害等を想定して、デジタルデータの保存に焦点を当てて、主なバックアップ方法と長所...

        今回は、地震災害等を想定して、デジタルデータの保存に焦点を当てて、主なバックアップ方法と長所...


‐情報収集と開発活動、営業の役割‐  製品・技術開発力強化策の事例(その12)

   前回の事例その11に続いて解説します。製品開発は完了したがどのように売れば良いのか、ベンチャ-ビジネスの相談や異業種交流の会合では特に売り方に関する...

   前回の事例その11に続いて解説します。製品開発は完了したがどのように売れば良いのか、ベンチャ-ビジネスの相談や異業種交流の会合では特に売り方に関する...