逆強化学習の基礎、手法選択と応用

55,000 円（税込）

※本文中に提示された主催者の割引は申込後に適用されます

※銀行振込、会場での支払い

このセミナーの申込みは終了しました。

よくある質問はこちら

このセミナーについて質問する

開催日	2020/01/20（月）10:00 ～ 2020/01/20（月）17:00　締めきりました
主催者	株式会社技術情報協会
キーワード	機械学習・ディープラーニング
開催エリア	東京都
開催場所	【品川区】技術情報協会セミナールーム
交通	【JR・地下鉄】五反田駅【東急】大崎広小路駅

逆強化学習ではどのように問題を設定すればよいのか？　
経験則的な内容のモデル化方法は？

セミナー講師

電気通信大学 i-パワードエネルギーシステム研究センター、基盤理工学専攻　准教授、(株)GRID　最高技術顧問　理学博士　曽我部東馬氏

セミナー受講料

1名につき50，000円（消費税抜き・昼食・資料付き）
〔1社2名以上同時申込の場合1名につき45，000円（税抜）〕

セミナープログラム

第１部　逆強化学習の基礎知識
　1-1 マルコフ決定過程
　　1-1-1 平均とマルコフ性(MP)
　　1-1-2 逐次平均表現とMP
　　1-1-3 マルコフ報酬過程
　　1-1-4 マルコフ決定過程
　1-2 Bellman方程式の導出
　　1-2-1 平均から決定型Bellman方程式の導入
　　1-2-2 平均表現と価値関数の導入
　　1-2-3 確率型Bellman方程式の導出
　　　1-2-3-1 行動状態価値関数の導入
　　　1-2-3-2 確率型ベルマン方程式の導出
　　　1-2-3-3 遷移確率関数 T (r ( S') , S'│s,a )の極意
　　　1-2-3-4 グリッドワード問題の応用
　1-3 動的計画法
　　1-3-1 ε = 1 - Greedy反復方策
　　1-3-2 ε = 0 - Greedy方策反復法(On-Policy)
　　1-3-3 ε = 0 - Greedy価値反復法(Off-Policy)
　1-4 逆強化学習の基本概念の導入
　　1-4-1 報酬関数の定義
　　1-4-2 報酬関数による価値関数の推定

第２部　逆強化学習の解法：線形計画最適化逆強化学習手法
　2-1 線形計画最適化逆強化学習手法の導入
　2-2 線形計画逆強化学習手法の定式化
　2-3 線形計画逆強化学習手法のコーディング要領
　2-4 線形計画逆強化学習手法の応用事例の紹介

第３部　逆強化学習の解法：最大エントロピー逆強化学習手法
　3-1 関数近似の基本概念
　3-2 関数近似モデルを用いた報酬の表現
　3-3 機械学習による報酬関数の回帰
　3-4 最大エントロピーを取り入れた報酬誤差関数の設計
　3-5 熟練者による行動確率教師データの生成
　3-6 最大エントロピー逆強化学習手法のコーディング要領
　3-7 最大エントロピー逆強化学習手法の応用事例の紹介

第４部　逆強化学習の解法：深層NN最大エントロピー逆強化学習手法
　4-1 深層NN(neural network)の導入
　4-2 深層NN最大エントロピーを取り入れた報酬誤差関数の設計
　4-3 熟練者による状態頻度教師データの生成
　4-4 深層NN最大エントロピー逆強化学習手法のコーディング要領
　4-5 深層NN最大エントロピー逆強化学習手法の応用事例の紹介

第５部　逆強化学習の展望と関連技術の紹介

【質疑応答】

機械学習を用いた画像認識技術の基礎とその応用

■AI活用人材育成講座■『機械学習（ディープラーニング）の基礎・活用・実践<全3回>』

ベイズ統計から学ぶ統計的機械学習

小規模データに対する機械学習の効果的適用法

Pythonではじめる機械学習入門講座

第一原理計算と機械学習を用いた材料設計 ～基礎原理から機械学習力場活用の最新動向まで～

機械学習によるデータ分析の基礎知識と勘所

世界初の深層学習法：浸透学習法（PLM:Percolative Learning Method）の原理と応用