【中止】逆強化学習の基礎、手法選択と応用

経験則的な内容をモデル化するには?
報酬関数をどのように設定すればよいのか?

セミナー講師

電気通信大学 i-パワードエネルギーシステム研究センター、基盤理工学専攻 准教授、(株)GRID 最高技術顧問 理学博士 曽我部 東馬

セミナー受講料

1名につき55,000円(税込・資料付)
〔1社2名以上同時申込の場合1名につき49,500円(税込)〕

受講について

  • 本講座はZoomを利用したLive配信セミナーです。セミナー会場での受講はできません。
  • 下記リンクから視聴環境を確認の上、お申し込みください。
     → https://zoom.us/test
  • 開催日が近くなりましたら、視聴用のURLとパスワードをメールにてご連絡申し上げます。
    セミナー開催日時に、視聴サイトにログインしていただき、ご視聴ください。
  • Zoomクライアントは最新版にアップデートして使用してください。
    Webブラウザから視聴する場合は、Google Chrome、Firefox、Microsoft Edgeをご利用ください。
  • パソコンの他にタブレット、スマートフォンでも視聴できます。
  • セミナー資料はお申込み時にお知らせいただいた住所へお送りいたします。
    お申込みが直前の場合には、開催日までに資料の到着が間に合わないことがあります。ご了承ください。
  • 当日は講師への質問をすることができます。可能な範囲で個別質問にも対応いたします。
  • 本講座で使用される資料や配信動画は著作物であり、
    録音・録画・複写・転載・配布・上映・販売等を禁止いたします。
  • 本講座はお申し込みいただいた方のみ受講いただけます。
    複数端末から同時に視聴することや複数人での視聴は禁止いたします。
  • Zoomのグループにパスワードを設定しています。
    部外者の参加を防ぐため、パスワードを外部に漏洩しないでください。
    万が一部外者が侵入した場合は管理者側で部外者の退出あるいはセミナーを終了いたします。

セミナープログラム

  1. 逆強化学習の基礎知識
    1. マルコフ決定過程
      1. 平均とマルコフ性(MP) 1-1-2 逐次平均表現とMP
      2. マルコフ報酬過程 1-1-4 マルコフ決定過程
    2. Bellman方程式の導出
      1. 平均から決定型Bellman方程式の導入
      2. 平均表現と価値関数の導入
      3. 確率型Bellman方程式の導出
        1. 行動状態価値関数の導入 1-2-3-2 確率型ベルマン方程式の導出
        2. 遷移確率関数 T (r ( S') , S'│s,a )の極意 2-2-3-4 グリッドワード問題の応用
    3. 動的計画法
      1. ε = 1 - Greedy反復方策
      2. ε = 0 - Greedy方策反復法(On-Policy) 1-3-3 ε = 0 - Greedy価値反復法(Off-Policy)
    4. 逆強化学習の基本概念の導入
      1. 報酬関数の定義 1-4-2 報酬関数による価値関数の推定
  2. 逆強化学習の解法:線形計画最適化逆強化学習手法
    1. 線形計画最適化逆強化学習手法の導入
    2. 線形計画逆強化学習手法の定式化
    3. 線形計画逆強化学習手法のコーディング要領
    4. 線形計画逆強化学習手法の応用事例の紹介
  3. 逆強化学習の解法:最大エントロピー逆強化学習手法
    1. 関数近似の基本概念
    2. 関数近似モデルを用いた報酬の表現
    3. 機械学習による報酬関数の回帰
    4. 最大エントロピーを取り入れた報酬誤差関数の設計
    5. 熟練者による行動確率教師データの生成
    6. 最大エントロピー逆強化学習手法のコーディング要領
    7. 最大エントロピー逆強化学習手法の応用事例の紹介
  4. 逆強化学習の解法:深層NN最大エントロピー逆強化学習手法
    1. 深層NN(neural network)の導入
    2. 深層NN最大エントロピーを取り入れた報酬誤差関数の設計
    3. 熟練者による状態頻度教師データの生成
    4. 深層NN最大エントロピー逆強化学習手法のコーディング要領
    5. 深層NN最大エントロピー逆強化学習手法の応用事例の紹介
  5. 逆強化学習の展望と関連技術の紹介

【質疑応答】