逆強化学習～その真相を一括解説～

【講師】

曽我部東馬　博士：電気通信大学 i-パワードエネルギーシステム研究センター＆基盤理工学専攻准教授　　　　兼任 (株)GRID 最高技術顧問　　　　　　　　　　　　　　　　

【プログラム】

　　第１部　逆強化学習の基礎知識
　　　　1.1 マルコフ決定過程
　　　　　　・平均とマルコフ性(MP)
　　　　　　・逐次平均表現とMP
　　　　　　・マルコフ報酬過程
　　　　　　・マルコフ決定過程
　　　　1.2 Bellman方程式の導出：
　　　　　　・平均から決定型Bellman方程式の導入：
　　　　　　・平均表現と価値関数の導入：
　　　　　　・確率型Bellman方程式の導出：
　　　　　　　① 行動状態価値関数の導入：
　　　　　　　② 確率型ベルマン方程式の導出
　　　　　　　③ 遷移確率関数 T (r ( S') , S'│s,a )の極意
　　　　　　　④ グリッドワード問題の応用
　　　　1.3 動的計画法
　　　　　　・ε = 1 - Greedy反復方策
　　　　　　・ε = 0 - Greedy方策反復法(On-Policy)
　　　　　　・ε = 0 - Greedy価値反復法(Off-Policy)
　　　　1.4 逆強化学習の基本概念の導入
　　　　　　・報酬関数の定義
　　　　　　・報酬関数による価値関数の推定

　　第２部　逆強化学習の解法：線形計画最適化逆強化学習手法
　　　　2.1 線形計画最適化逆強化学習手法の導入
　　　　2.2 線形計画逆強化学習手法の定式化
　　　　2.3 線形計画逆強化学習手法のコーディング要領
　　　　2.4 線形計画逆強化学習手法の応用事例の紹介

　　第３部　逆強化学習の解法：最大エントロピー逆強化学習手法
　　　　3.1 関数近似の基本概念
　　　　3.2 関数近似モデルを用いた報酬の表現
　　　　3.3 機械学習による報酬関数の回帰
　　　　3.4 最大エントロピーを取り入れた報酬誤差関数の設計
　　　　3.5 熟練者による行動確率教師データの生成
　　　　3.6 最大エントロピー逆強化学習手法のコーディング要領
　　　　3.7 最大エントロピー逆強化学習手法の応用事例の紹介

　　第４部　逆強化学習の解法：深層NN最大エントロピー逆強化学習手法
　　　　4.1 深層NN(neural network)の導入
　　　　4.2 深層NN最大エントロピーを取り入れた報酬誤差関数の設計
　　　　4.3 熟練者による状態頻度教師データの生成
　　　　4.4 深層NN最大エントロピー逆強化学習手法のコーディング要領
　　　　4.5 深層NN最大エントロピー逆強化学習手法の応用事例の紹介

　　第５部　逆強化学習の展望と関連技術の紹介