逆強化学習の基礎、手法選択と応用

逆強化学習ではどのように問題を設定すればよいのか? 
経験則的な内容のモデル化方法は?

セミナープログラム

第1部 逆強化学習の基礎知識
 1-1 マルコフ決定過程
  1-1-1 平均とマルコフ性(MP)
  1-1-2 逐次平均表現とMP
  1-1-3 マルコフ報酬過程
  1-1-4 マルコフ決定過程
 1-2 Bellman方程式の導出
  1-2-1 平均から決定型Bellman方程式の導入
  1-2-2 平均表現と価値関数の導入
  1-2-3 確率型Bellman方程式の導出
   1-2-3-1 行動状態価値関数の導入
   1-2-3-2 確率型ベルマン方程式の導出
   1-2-3-3 遷移確率関数 T (r ( S') , S'│s,a )の極意
   1-2-3-4 グリッドワード問題の応用
 1-3 動的計画法
  1-3-1 ε = 1 - Greedy反復方策
  1-3-2 ε = 0 - Greedy方策反復法(On-Policy)
  1-3-3 ε = 0 - Greedy価値反復法(Off-Policy)
 1-4 逆強化学習の基本概念の導入
  1-4-1 報酬関数の定義
  1-4-2 報酬関数による価値関数の推定

第2部 逆強化学習の解法:線形計画最適化逆強化学習手法
 2-1 線形計画最適化逆強化学習手法の導入
 2-2 線形計画逆強化学習手法の定式化
 2-3 線形計画逆強化学習手法のコーディング要領
 2-4 線形計画逆強化学習手法の応用事例の紹介

第3部 逆強化学習の解法:最大エントロピー逆強化学習手法
 3-1 関数近似の基本概念
 3-2 関数近似モデルを用いた報酬の表現
 3-3 機械学習による報酬関数の回帰
 3-4 最大エントロピーを取り入れた報酬誤差関数の設計
 3-5 熟練者による行動確率教師データの生成
 3-6 最大エントロピー逆強化学習手法のコーディング要領
 3-7 最大エントロピー逆強化学習手法の応用事例の紹介

第4部 逆強化学習の解法:深層NN最大エントロピー逆強化学習手法
 4-1 深層NN(neural network)の導入
 4-2 深層NN最大エントロピーを取り入れた報酬誤差関数の設計
 4-3 熟練者による状態頻度教師データの生成
 4-4 深層NN最大エントロピー逆強化学習手法のコーディング要領
 4-5 深層NN最大エントロピー逆強化学習手法の応用事例の紹介

第5部 逆強化学習の展望と関連技術の紹介

【質疑応答】

セミナー講師

電気通信大学 i-パワードエネルギーシステム研究センター、基盤理工学専攻 准教授、(株)GRID 最高技術顧問 理学博士 曽我部 東馬 氏

セミナー受講料

1名につき50,000円(消費税抜き・昼食・資料付き)
〔1社2名以上同時申込の場合1名につき45,000円(税抜)〕


※セミナーに申し込むにはものづくりドットコム会員登録が必要です

開催日時


10:00

受講料

55,000円(税込)/人

※本文中に提示された主催者の割引は申込後に適用されます

※銀行振込、会場での支払い

開催場所

東京都

MAP

【品川区】技術情報協会セミナールーム

【JR・地下鉄】五反田駅 【東急】大崎広小路駅

主催者

キーワード

機械学習・ディープラーニング

※セミナーに申し込むにはものづくりドットコム会員登録が必要です

開催日時


10:00

受講料

55,000円(税込)/人

※本文中に提示された主催者の割引は申込後に適用されます

※銀行振込、会場での支払い

開催場所

東京都

MAP

【品川区】技術情報協会セミナールーム

【JR・地下鉄】五反田駅 【東急】大崎広小路駅

主催者

キーワード

機械学習・ディープラーニング

関連記事

もっと見る