以下の類似セミナーへのお申込みをご検討ください。
逆強化学習ではどのように問題を設定すればよいのか?
経験則的な内容のモデル化方法は?
セミナープログラム
第1部 逆強化学習の基礎知識
1-1 マルコフ決定過程
1-1-1 平均とマルコフ性(MP)
1-1-2 逐次平均表現とMP
1-1-3 マルコフ報酬過程
1-1-4 マルコフ決定過程
1-2 Bellman方程式の導出
1-2-1 平均から決定型Bellman方程式の導入
1-2-2 平均表現と価値関数の導入
1-2-3 確率型Bellman方程式の導出
1-2-3-1 行動状態価値関数の導入
1-2-3-2 確率型ベルマン方程式の導出
1-2-3-3 遷移確率関数 T (r ( S') , S'│s,a )の極意
1-2-3-4 グリッドワード問題の応用
1-3 動的計画法
1-3-1 ε = 1 - Greedy反復方策
1-3-2 ε = 0 - Greedy方策反復法(On-Policy)
1-3-3 ε = 0 - Greedy価値反復法(Off-Policy)
1-4 逆強化学習の基本概念の導入
1-4-1 報酬関数の定義
1-4-2 報酬関数による価値関数の推定
第2部 逆強化学習の解法:線形計画最適化逆強化学習手法
2-1 線形計画最適化逆強化学習手法の導入
2-2 線形計画逆強化学習手法の定式化
2-3 線形計画逆強化学習手法のコーディング要領
2-4 線形計画逆強化学習手法の応用事例の紹介
第3部 逆強化学習の解法:最大エントロピー逆強化学習手法
3-1 関数近似の基本概念
3-2 関数近似モデルを用いた報酬の表現
3-3 機械学習による報酬関数の回帰
3-4 最大エントロピーを取り入れた報酬誤差関数の設計
3-5 熟練者による行動確率教師データの生成
3-6 最大エントロピー逆強化学習手法のコーディング要領
3-7 最大エントロピー逆強化学習手法の応用事例の紹介
第4部 逆強化学習の解法:深層NN最大エントロピー逆強化学習手法
4-1 深層NN(neural network)の導入
4-2 深層NN最大エントロピーを取り入れた報酬誤差関数の設計
4-3 熟練者による状態頻度教師データの生成
4-4 深層NN最大エントロピー逆強化学習手法のコーディング要領
4-5 深層NN最大エントロピー逆強化学習手法の応用事例の紹介
第5部 逆強化学習の展望と関連技術の紹介
【質疑応答】
セミナー講師
電気通信大学 i-パワードエネルギーシステム研究センター、基盤理工学専攻 准教授、(株)GRID 最高技術顧問 理学博士 曽我部 東馬 氏
セミナー受講料
1名につき50,000円(消費税抜き・昼食・資料付き)
〔1社2名以上同時申込の場合1名につき45,000円(税抜)〕
※セミナーに申し込むにはものづくりドットコム会員登録が必要です
開催日時
10:00 ~
受講料
55,000円(税込)/人
※本文中に提示された主催者の割引は申込後に適用されます
※銀行振込、会場での支払い
開催場所
東京都
【品川区】技術情報協会セミナールーム
【JR・地下鉄】五反田駅 【東急】大崎広小路駅
主催者
キーワード
機械学習・ディープラーニング
※セミナーに申し込むにはものづくりドットコム会員登録が必要です
開催日時
10:00 ~
受講料
55,000円(税込)/人
※本文中に提示された主催者の割引は申込後に適用されます
※銀行振込、会場での支払い
開催場所
東京都
【品川区】技術情報協会セミナールーム
【JR・地下鉄】五反田駅 【東急】大崎広小路駅
主催者
キーワード
機械学習・ディープラーニング関連セミナー
もっと見る関連教材
もっと見る関連記事
もっと見る-
自動化、DX化で注意すべき点、原理原則の理解とは
自動作成ソフトや、DX技術の進化により、業務の効率化や工数削減が進んでいます。しかし全てを自動化し、人の判断や知識を排除することには疑... -
プロダクト・データサイエンス:データ分析講座(その323)3つのDS
企業内のデータサイエンス組織の1つの役割として、データサイエンス技術を、より良い商品の開発やより良いCX(カスタマー・エクスペリエンス... -
【快年童子の豆鉄砲】(その128)定年熟練者の採用体制
【目次】 1. はじめに 中小企業が抱える喫緊の課題の最後は「熟練社員退職で技術知識の喪失」に対する解決手段です。一般的には、定年... -