逆強化学習の基礎と発展

【項目】※クリックするとその項目に飛ぶことができます

セミナー趣旨

　逆強化学習は統計を基盤とした機械学習と最適制御の学際領域を担う，近年発達著しい研究領域である．強化学習が「成功」と「失敗」の繰り返しの経験から，ロボットに最適な動作を自律獲得させる学習の仕組みであるのに対し，逆強化学習は，明文化が難しい熟練者の巧みなスキルを機械に自律獲得させる，見まねを通じた学習の枠組みになっている．熟練者のうまみ＝「報酬」を，観察に基づき推定する枠組みとみなせるため，逆強化学習は，強化学習の逆問題に相当するものである．そのため逆強化学習は模倣学習と呼ばれるほか，逆最適制御とも呼ばれる．これは，強化学習の実応用で問題となる報酬関数の設計など，明文化が難しいスキルの「コツ」といったものをモデル化することに適した技術であり，人行動のモデル化とも関連した応用も多い．例えば状況に応じた運転経路・目的地予測，人と人とのインタラクション行動の予測，運転の好みに応じた追い越し運転予測といった応用などがある．
　本セミナーでは，このような逆強化学習の応用事例を紹介したうえで，逆強化学習の理解につながる，機械学習や強化学習の基礎から説明し，そのうえで逆強化学習の数理的な問題設定，さらに，本研究分野の発展に寄与するいくつかのアルゴリズムを紹介していく．近年の逆強化学習の課題なども紹介できればと考えている．

セミナープログラム

AI分野における模倣学習の位置づけ
1. AI分野における強化学習の位置づけ
2. 最適制御と強化学習
3. 強化学習と逆強化学習
4. 行動クローニングと逆強化学習
逆強化学習の応用事例
1. 行動スキル獲得
2. 行動予測
3. 効率的な強化学習
機械学習の基本要素の確認
1. 損失の期待値・平均値の最小化
2. 正則化
3. 数値最適化（勾配法）
強化学習の問題設定
1. マルコフ決定過程
2. 報酬最大化
3. 価値関数・Bellman方程式・価値反復法
逆強化学習の基礎
1. 逆強化学習の基本的枠組の導出
2. モデルベース離散状態空間の逆強化学習
  1. 最大マージン逆強化学習
  2. 最大エントロピー逆強化学習
3. 強化学習と逆強化学習の双対性（GAIL）
逆強化学習の発展
1. モデルフリー連続状態空間の強化学習
  1. 価値関数近似・方策勾配法
  2. SAC，PPO，TRPO etc.
2. 報酬関数の表現手法
  1. 線形モデル
  2. 加法モデル
  3. 非線形モデリング
  4. 敵対的生成モデリング（AIRL）
逆強化学習の実装
〜シミュレーション環境を用いた逆強化学習の実装事例を紹介する
逆強化学習の最近の進展

セミナー講師

下坂正倫（しもさかまさみち）　氏
東京工業大学　情報理工学院　情報工学系　准教授（博士（情報理工学））

＜略歴＞
　2001年　東京大学　工学部　機械情報工学科　卒業
　2006年　東京大学大学院　情報理工学系研究科　知能機械情報学専攻　博士課程修了
　2006年～2007年　東京大学大学院　情報理工学系研究科　助手
　2007年～2011年　東京大学大学院　情報理工学系研究科　助教
　2011年～2015年　東京大学大学院　情報理工学系研究科　講師
　2015年　東京工業大学　情報理工学（系）研究科　准教授
　2016年　東京工業大学　情報理工学院　准教授
　　現在に至る。

セミナー受講料

お1人様受講の場合　53,900円[税込]／1名
1口でお申込の場合　66,000円[税込]／1口（3名まで受講可能）

受講申込ページで2～3名を同時に申し込んだ場合、自動的に1口申し込みと致します。

受講料

53,900円（税込）/人

※セミナーに申し込むにはものづくりドットコム会員登録が必要です

開催日時

2023/11/21（火）
10:30 ～ 16:30　
締めきりました

受講料

53,900円（税込）/人

※本文中に提示された主催者の割引は申込後に適用されます

※銀行振込

開催場所

全国

主催者

株式会社トリケップス

キーワード

機械学習・ディープラーニング AI（人工知能）ソフトウェア開発

このセミナーについて質問する

※セミナーに申し込むにはものづくりドットコム会員登録が必要です

開催日時

2023/11/21（火）
10:30 ～ 16:30　
締めきりました

受講料

53,900円（税込）/人

※本文中に提示された主催者の割引は申込後に適用されます

※銀行振込

開催場所

全国

主催者

株式会社トリケップス

キーワード

機械学習・ディープラーニング AI（人工知能）ソフトウェア開発

このセミナーについて質問する

フィジカルAIとは？定義、仕組み、応用例から未来の課題まで徹底解説
- 解説記事
【目次】これまでのAIが主にデジタル空間でのデータ処理や情報分析に特化していたのに対し、フィジカルAIは現実世界と直接インタラクシ...
AIセキュリティ対策の最前線、リスクマネジメントの実践と展望
- 解説記事
【目次】 AI技術の急速な進化は、私たちの生活やビジネスのあり方を大きく変えています。しかし、その利便性と革新性の裏には、さまざまな...
ニューラルネットワークとは？仕組みと種類、活用事例等をご紹介！
- 解説記事
【目次】ニューラルネットワークは、人工知能（AI）の中でも特に注目されている技術の一つです。人間の脳の働きを模倣したこの仕組みは、...
生成AIの能力比較：生成AI、工場でどこまで使えるのか（その３）
- 解説記事
近い将来、対話型AIが現行の検索エンジンにとって代わる可能性が指摘されていますが、今回は、連載解説（その３）生成AIの能力比較。を解説...

逆強化学習の基礎と発展

セミナー趣旨

セミナープログラム

セミナー講師

セミナー受講料

機械学習によるデータ分析の基礎知識と勘所

機械学習によるデータ分析の基礎知識と勘所

ようこそエンジニアの世界へ（基礎への扉）情報　Ｉ

ようこそエンジニアの世界へ（基礎への扉）情報　ＩＩ

初めの一歩Ｃ言語講座

機械学習・人工知能　業務活用の手引き

人工知能（ＡＩ）関連技術の法的実務の課題と対応の方向性

何ができるのか？何が必要なのか？　産業利用を考える人のための人工知能・機械学習・ディープラーニング関連技術とその活用

フィジカルAIとは？定義、仕組み、応用例から未来の課題まで徹底解説

AIセキュリティ対策の最前線、リスクマネジメントの実践と展望

ニューラルネットワークとは？仕組みと種類、活用事例等をご紹介！

生成AIの能力比較：生成AI、工場でどこまで使えるのか（その３）

ものづくりセミナーサーチ

日本最大級の技術・生産セミナーポータルサイト

逆強化学習の基礎と発展

セミナー趣旨

セミナープログラム

セミナー講師

セミナー受講料

類似セミナー

機械学習によるデータ分析の基礎知識と勘所

関連セミナー

機械学習によるデータ分析の基礎知識と勘所

関連教材

ようこそエンジニアの世界へ（基礎への扉）情報 Ｉ

ようこそエンジニアの世界へ（基礎への扉）情報 ＩＩ

初めの一歩Ｃ言語講座

機械学習・人工知能 業務活用の手引き

人工知能（ＡＩ）関連技術の法的実務の課題と対応の方向性

何ができるのか？何が必要なのか？ 産業利用を考える人のための人工知能・機械学習・ディープラーニング関連技術とその活用

関連記事

フィジカルAIとは？定義、仕組み、応用例から未来の課題まで徹底解説

AIセキュリティ対策の最前線、リスクマネジメントの実践と展望

ニューラルネットワークとは？仕組みと種類、活用事例等をご紹介！

生成AIの能力比較：生成AI、工場でどこまで使えるのか（その３）

ものづくりセミナーサーチ

日本最大級の技術・生産セミナーポータルサイト

ようこそエンジニアの世界へ（基礎への扉）情報　Ｉ

ようこそエンジニアの世界へ（基礎への扉）情報　ＩＩ

機械学習・人工知能　業務活用の手引き

何ができるのか？何が必要なのか？　産業利用を考える人のための人工知能・機械学習・ディープラーニング関連技術とその活用