時系列データに対するクロスバリデーション法、データ分析講座(その307)

更新日

投稿日

 

時系列データに対するクロスバリデーション法、データ分析講座(その307)

 

ビジネスの世界では、売上などの時系列データを使い予測モデルを構築し、近未来を予測しながらビジネス活動する人や組織があります。ただ、予測モデルを構築するときに、どのモデル(アルゴリズム)がいいのか?どの説明変数Xの組み合わせがいいのか?どのハイパーパラメータの値の組み合わせがいいのか?は、モデル構築前に通常はわかりません。そのため、色々な組み合わせパターンで試す必要があります。試すとき、予測モデルを構築するために利用するデータセットを「訓練データ」と「検証データ」します。

時系列データに対するクロスバリデーション法、データ分析講座(その307)

色々なパターン(モデルと説明変数Xとハイパーパラメータの値などの組み合わせ)で「訓練データ」で予測モデルを学習し求め「検証データ」で検証し、より良いパターンを探索します。ここで、データセットを「訓練データ」と「検証データ」に分割しチューニングする場合、どう分割するのかという問題があります。そのやり方の1つが、クロスバリデーション法です。今回は「時系列データに対するクロスバリデーション法」というお話しをします。

1. クロスバリデーション法とは?

クロスバリデーション法とは、データセットを複数に分割し「訓練データ」による予測モデルの学習と「検証データ」による評価を、複数回実施する方法です。例えば、データセットをランダムに10個に分けます。このとき「訓練データ」と「検証データ」のデータセットの組み合わせを10セット作ります。

 

それぞれのセットで予測モデルを学習し評価することで、個々の評価結果を出します。最終的にその評価結果を取りまとめ総合評価結果とします。

 

2. クロスバリデーション法のイメージ

もう少し分かりやすく説明します。1セット目です。10分割したデータの1つを「検証データ」とします。それ以外の9個のデータを「訓練データ」とします。この「訓練データ」で予測モデルを学習し「検証データ」を使い評価します。 

時系列データに対するクロスバリデーション法、データ分析講座(その307)

2セット目です。10分割したデータの中から1セット目と異なる「検証データ」を1つ選択し「検証データ」とします。それ以外の9個のデータを「訓練データ」とします。この「訓練データ」で予測モデルを学習し「検証データ」を使い評価します。

時系列データに対するクロスバリデーション法、データ分析講座(その307)

このような感じで、3セット目以降も同様に「訓練データ」による予測モデルの学習と「検証データ」による評価を実施します。最終的に、10個の評価結果が手に入ります。多くの場合、評価結果の平均を取り総合評価とします。もちろん、平均ではなく最大値や最小値などを求め「最悪のケース」を総合評価とすることもあります。 

 

3. そのまま時系列データに適用したとき起こる問題

今説明したクロスバリデーション法は、時間軸を考慮した予測モデルのチューニングをするとき問題が起きます。

 

「訓練データ」は「検証データ」よりも時間的に過去のデータである必要があります。ランダムに分割すると「過去のデータで予測モデルを学習し、未来の目的変数yを予測する」という前提を満たさない可能性が高いからです。そのため、ある時点で2つにデータセットを分割し、時間的に前のデータを「訓練データ」時間的に後のデータを「検証データ」とします。

 

4. 時系列データに対するクロスバリデーション法

クロスバリデーション法は複数の「訓練データ」と「検証データ」のセットを準備し、それぞれのセットで予測モデルを学習し評価し、最終的にその評価結果を取りまとめ総合評価結果とします。時系列データの場合には、次のように「訓練データ」と「検証データ」を分割する時点を複数設け、その時点ごとに「訓練データ」と「検証データ」のセットを作ります。

時系列データに対するクロスバリデーション法、データ分析講座(その307)

訓練データの期間を伸ばしていくエクスパディング型と、訓練データの期間を常に一定と...

 

時系列データに対するクロスバリデーション法、データ分析講座(その307)

 

ビジネスの世界では、売上などの時系列データを使い予測モデルを構築し、近未来を予測しながらビジネス活動する人や組織があります。ただ、予測モデルを構築するときに、どのモデル(アルゴリズム)がいいのか?どの説明変数Xの組み合わせがいいのか?どのハイパーパラメータの値の組み合わせがいいのか?は、モデル構築前に通常はわかりません。そのため、色々な組み合わせパターンで試す必要があります。試すとき、予測モデルを構築するために利用するデータセットを「訓練データ」と「検証データ」します。

時系列データに対するクロスバリデーション法、データ分析講座(その307)

色々なパターン(モデルと説明変数Xとハイパーパラメータの値などの組み合わせ)で「訓練データ」で予測モデルを学習し求め「検証データ」で検証し、より良いパターンを探索します。ここで、データセットを「訓練データ」と「検証データ」に分割しチューニングする場合、どう分割するのかという問題があります。そのやり方の1つが、クロスバリデーション法です。今回は「時系列データに対するクロスバリデーション法」というお話しをします。

1. クロスバリデーション法とは?

クロスバリデーション法とは、データセットを複数に分割し「訓練データ」による予測モデルの学習と「検証データ」による評価を、複数回実施する方法です。例えば、データセットをランダムに10個に分けます。このとき「訓練データ」と「検証データ」のデータセットの組み合わせを10セット作ります。

 

それぞれのセットで予測モデルを学習し評価することで、個々の評価結果を出します。最終的にその評価結果を取りまとめ総合評価結果とします。

 

2. クロスバリデーション法のイメージ

もう少し分かりやすく説明します。1セット目です。10分割したデータの1つを「検証データ」とします。それ以外の9個のデータを「訓練データ」とします。この「訓練データ」で予測モデルを学習し「検証データ」を使い評価します。 

時系列データに対するクロスバリデーション法、データ分析講座(その307)

2セット目です。10分割したデータの中から1セット目と異なる「検証データ」を1つ選択し「検証データ」とします。それ以外の9個のデータを「訓練データ」とします。この「訓練データ」で予測モデルを学習し「検証データ」を使い評価します。

時系列データに対するクロスバリデーション法、データ分析講座(その307)

このような感じで、3セット目以降も同様に「訓練データ」による予測モデルの学習と「検証データ」による評価を実施します。最終的に、10個の評価結果が手に入ります。多くの場合、評価結果の平均を取り総合評価とします。もちろん、平均ではなく最大値や最小値などを求め「最悪のケース」を総合評価とすることもあります。 

 

3. そのまま時系列データに適用したとき起こる問題

今説明したクロスバリデーション法は、時間軸を考慮した予測モデルのチューニングをするとき問題が起きます。

 

「訓練データ」は「検証データ」よりも時間的に過去のデータである必要があります。ランダムに分割すると「過去のデータで予測モデルを学習し、未来の目的変数yを予測する」という前提を満たさない可能性が高いからです。そのため、ある時点で2つにデータセットを分割し、時間的に前のデータを「訓練データ」時間的に後のデータを「検証データ」とします。

 

4. 時系列データに対するクロスバリデーション法

クロスバリデーション法は複数の「訓練データ」と「検証データ」のセットを準備し、それぞれのセットで予測モデルを学習し評価し、最終的にその評価結果を取りまとめ総合評価結果とします。時系列データの場合には、次のように「訓練データ」と「検証データ」を分割する時点を複数設け、その時点ごとに「訓練データ」と「検証データ」のセットを作ります。

時系列データに対するクロスバリデーション法、データ分析講座(その307)

訓練データの期間を伸ばしていくエクスパディング型と、訓練データの期間を常に一定とするローリング型の2通りの方法があります。実務で予測モデルを構築し活用するとき、どちらの使い方に近いかで考えればいいと思います。

  1.  エクステパディング型:実務で予測モデルを構築するとき、手に入る過去データをできるだけ使うケース
  2.  ローリング型:実務で予測モデルを構築するとき、ある一定の期間の過去データを使うケース(もしくは、古いデータを定期的に破棄するケース)

 

【ものづくり セミナーサーチ】 セミナー紹介:国内最大級のセミナー掲載数 〈ものづくりセミナーサーチ〉 はこちら!

 

   続きを読むには・・・


この記事の著者

高橋 威知郎

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
教師あり・なし学習による異常検知とは:データ分析講座(その315)

  データサイエンスのビジネス活用が広まる中、最も活用されているものの1つが異常検知です。異常検知とは、膨大なデータの中から通常とは異なる...

  データサイエンスのビジネス活用が広まる中、最も活用されているものの1つが異常検知です。異常検知とは、膨大なデータの中から通常とは異なる...


データ分析に立ちはだかる実践・活用の壁  データ分析講座(その288)

    「データ分析をやれ!」と言われたら、あなたならどうするでしょうか。多くの人は、分析手法の知識や分析ツールの使い方を習得...

    「データ分析をやれ!」と言われたら、あなたならどうするでしょうか。多くの人は、分析手法の知識や分析ツールの使い方を習得...


急激な変化をデータで見極める データ分析講座(その175)

  ◆ 売上などが急激な変化をしたとき「何が変わり何が変わっていないのか」をデータで見極める  収益の急激な悪化は、時系列解析の用語で言...

  ◆ 売上などが急激な変化をしたとき「何が変わり何が変わっていないのか」をデータで見極める  収益の急激な悪化は、時系列解析の用語で言...


「情報マネジメント一般」の活用事例

もっと見る
守秘義務は情報社会の命綱

  1. 顧客データの管理  O社は、技術志向のエンジニアリング会社です。 扱う製品の設計図には、さまざまな情報が含まれています。クライアントから...

  1. 顧客データの管理  O社は、技術志向のエンジニアリング会社です。 扱う製品の設計図には、さまざまな情報が含まれています。クライアントから...


‐情報収集で配慮すべき事項(第3回)‐  製品・技術開発力強化策の事例(その11)

 前回の事例その10に続いて解説します。ある目的で情報収集を開始する時には、始めに開発方針を明らかにして、目的意識を持って行動する必要があります。目的を明...

 前回の事例その10に続いて解説します。ある目的で情報収集を開始する時には、始めに開発方針を明らかにして、目的意識を持って行動する必要があります。目的を明...


電子メール、簡潔過ぎると逆効果

◆電子メール:多忙な人に確実な返信をもらうテクニック  皆様は仕事で電子メールを一日に何通受信しますか、企業の従業員数、所属部署、職務、職位などでも...

◆電子メール:多忙な人に確実な返信をもらうテクニック  皆様は仕事で電子メールを一日に何通受信しますか、企業の従業員数、所属部署、職務、職位などでも...