以下の類似セミナーへのお申込みをご検討ください。
機械学習を用いた画像認識技術の基礎とその応用
■AI活用人材育成講座■『機械学習(ディープラーニング)の基礎・活用・実践<全3回>』
ベイズ統計から学ぶ統計的機械学習
小規模データに対する機械学習の効果的適用法
Pythonではじめる機械学習入門講座
第一原理計算と機械学習を用いた材料設計 ~基礎原理から機械学習力場活用の最新動向まで~
機械学習によるデータ分析の基礎知識と勘所
世界初の深層学習法:浸透学習法(PLM:Percolative Learning Method)の原理と応用
逆強化学習の基礎、手法選択と応用
開催日 |
10:00 ~ 17:00 締めきりました |
---|---|
主催者 | 株式会社 技術情報協会 |
キーワード | 機械学習・ディープラーニング |
開催エリア | 東京都 |
開催場所 | 【品川区】技術情報協会セミナールーム |
交通 | 【JR・地下鉄】五反田駅 【東急】大崎広小路駅 |
逆強化学習ではどのように問題を設定すればよいのか?
経験則的な内容のモデル化方法は?
セミナー講師
電気通信大学 i-パワードエネルギーシステム研究センター、基盤理工学専攻 准教授、(株)GRID 最高技術顧問 理学博士 曽我部 東馬 氏
セミナー受講料
1名につき50,000円(消費税抜き・昼食・資料付き)
〔1社2名以上同時申込の場合1名につき45,000円(税抜)〕
セミナープログラム
第1部 逆強化学習の基礎知識
1-1 マルコフ決定過程
1-1-1 平均とマルコフ性(MP)
1-1-2 逐次平均表現とMP
1-1-3 マルコフ報酬過程
1-1-4 マルコフ決定過程
1-2 Bellman方程式の導出
1-2-1 平均から決定型Bellman方程式の導入
1-2-2 平均表現と価値関数の導入
1-2-3 確率型Bellman方程式の導出
1-2-3-1 行動状態価値関数の導入
1-2-3-2 確率型ベルマン方程式の導出
1-2-3-3 遷移確率関数 T (r ( S') , S'│s,a )の極意
1-2-3-4 グリッドワード問題の応用
1-3 動的計画法
1-3-1 ε = 1 - Greedy反復方策
1-3-2 ε = 0 - Greedy方策反復法(On-Policy)
1-3-3 ε = 0 - Greedy価値反復法(Off-Policy)
1-4 逆強化学習の基本概念の導入
1-4-1 報酬関数の定義
1-4-2 報酬関数による価値関数の推定
第2部 逆強化学習の解法:線形計画最適化逆強化学習手法
2-1 線形計画最適化逆強化学習手法の導入
2-2 線形計画逆強化学習手法の定式化
2-3 線形計画逆強化学習手法のコーディング要領
2-4 線形計画逆強化学習手法の応用事例の紹介
第3部 逆強化学習の解法:最大エントロピー逆強化学習手法
3-1 関数近似の基本概念
3-2 関数近似モデルを用いた報酬の表現
3-3 機械学習による報酬関数の回帰
3-4 最大エントロピーを取り入れた報酬誤差関数の設計
3-5 熟練者による行動確率教師データの生成
3-6 最大エントロピー逆強化学習手法のコーディング要領
3-7 最大エントロピー逆強化学習手法の応用事例の紹介
第4部 逆強化学習の解法:深層NN最大エントロピー逆強化学習手法
4-1 深層NN(neural network)の導入
4-2 深層NN最大エントロピーを取り入れた報酬誤差関数の設計
4-3 熟練者による状態頻度教師データの生成
4-4 深層NN最大エントロピー逆強化学習手法のコーディング要領
4-5 深層NN最大エントロピー逆強化学習手法の応用事例の紹介
第5部 逆強化学習の展望と関連技術の紹介
【質疑応答】