
類似セミナーへのお申込みはこちら
逆強化学習~その真相を一括解説~
【講師】
曽我部 東馬 博士:電気通信大学 i-パワードエネルギーシステム研究センター&基盤理工学専攻 准教授 兼任 (株)GRID 最高技術顧問
【プログラム】
第1部 逆強化学習の基礎知識
1.1 マルコフ決定過程
・平均とマルコフ性(MP)
・逐次平均表現とMP
・マルコフ報酬過程
・マルコフ決定過程
1.2 Bellman方程式の導出:
・平均から決定型Bellman方程式の導入:
・平均表現と価値関数の導入:
・確率型Bellman方程式の導出:
① 行動状態価値関数の導入:
② 確率型ベルマン方程式の導出
③ 遷移確率関数 T (r ( S') , S'│s,a )の極意
④ グリッドワード問題の応用
1.3 動的計画法
・ε = 1 - Greedy反復方策
・ε = 0 - Greedy方策反復法(On-Policy)
・ε = 0 - Greedy価値反復法(Off-Policy)
1.4 逆強化学習の基本概念の導入
・報酬関数の定義
・報酬関数による価値関数の推定
第2部 逆強化学習の解法:線形計画最適化逆強化学習手法
2.1 線形計画最適化逆強化学習手法の導入
2.2 線形計画逆強化学習手法の定式化
2.3 線形計画逆強化学習手法のコーディング要領
2.4 線形計画逆強化学習手法の応用事例の紹介
第3部 逆強化学習の解法:最大エントロピー逆強化学習手法
3.1 関数近似の基本概念
3.2 関数近似モデルを用いた報酬の表現
3.3 機械学習による報酬関数の回帰
3.4 最大エントロピーを取り入れた報酬誤差関数の設計
3.5 熟練者による行動確率教師データの生成
3.6 最大エントロピー逆強化学習手法のコーディング要領
3.7 最大エントロピー逆強化学習手法の応用事例の紹介
第4部 逆強化学習の解法:深層NN最大エントロピー逆強化学習手法
4.1 深層NN(neural network)の導入
4.2 深層NN最大エントロピーを取り入れた報酬誤差関数の設計
4.3 熟練者による状態頻度教師データの生成
4.4 深層NN最大エントロピー逆強化学習手法のコーディング要領
4.5 深層NN最大エントロピー逆強化学習手法の応用事例の紹介
第5部 逆強化学習の展望と関連技術の紹介
【受講料】
・お1人受講の場合 46,000円[税別]/1名
・1口でお申込の場合 57,000円[税別]/1口(3名まで受講可能)
受講申込ページで2~3名を同時に申し込んだ場合、自動的に1口申し込みと致します。
受講料
49,680円(税込)/人
※セミナーに申し込むにはものづくりドットコム会員登録が必要です
開催日時
10:30 ~
受講料
49,680円(税込)/人
※本文中に提示された主催者の割引は申込後に適用されます
※銀行振込
開催場所
東京都
主催者
キーワード
機械学習・ディープラーニング
※セミナーに申し込むにはものづくりドットコム会員登録が必要です
開催日時
10:30 ~
受講料
49,680円(税込)/人
※本文中に提示された主催者の割引は申込後に適用されます
※銀行振込
開催場所
東京都
主催者
キーワード
機械学習・ディープラーニング類似セミナー
関連セミナー
もっと見る関連教材
もっと見る関連記事
もっと見る-
パーパス経営とは?社員を惹きつけ、顧客を繋ぐパーパス経営をわかりやすく解説
【目次】 現代のビジネス環境は、目まぐるしい変化の渦中にあります。テクノロジーの進化、社会課題の複雑化、そして人々の価値観の多様化は... -
サイバー・フィジカルシステム(CPS)とは?安全で豊かな社会を築く仕組みと脅威・対策を解説
【目次】 現代社会は、インターネットとデジタル技術の進化により、かつてないほど便利で豊かな生活を享受しています。しかし、その一方で、... -
リバースエンジニアリングとは?リバースエンジニアリングの真実、多面性と未来
【目次】 現代社会はスマートフォンやAI、自動運転車といった最先端技術で溢れています。私たちの生活を豊かにするこれらの技術の多くは、... -
人権デューデリジェンスとは?【担当者向け】やり方・国内外の法律・企業の対策を徹底解説
【目次】 「自社のサプライチェーンで、強制労働や児童労働が行われていないと断言できますか?」今、このような問...