強化学習入門~基本アルゴリズムから深層強化学習・応用まで~

☆本セミナーは、定員満了のため、受付を終了しました。


 世界トップのプロ囲碁棋士に見事に勝利したAlphaGoの出現により、日本を含め世界中でAIに対する期待が高まっています。このAlphaGoの歴史的な勝利を支えた手法、すなわち「深層強化学習手法」が一躍注目を集めています。AIの研究や将来のビジネスチャンスを踏まえたAIの応用を真剣に検討されている方にとっては、深層学習の先にある「深層強化学習手法」の基本原理をしっかり理解することがマストといえるでしょう。しかし現状としては、深層強化学習手法をわかりやすく説明している資料はなかなか見当たりません。


 本セミナーはこのような現状を踏まえ、深層強化学習の最も基本となる強化学習の中核的な内容を例題と「動画」を通して、みなさんになるべくわかりやすく説明します。さらに本セミナーでは、難解といわれる「深層強化学習」をよりわかり易く理解するために、まず「簡易型の線形回帰近似モデル」を応用した強化学習手法を簡易デモなどを用いてわかりやすく説明します。これによりニューラルネットワーク近似モデルを使用する深層強化学習への理解が更に深まることを期待します。様々な背景を持つ受講者のみなさんが理解しやすく、実際に役立てられるように講義内容の難易度を調整しています。本セミナーを通して、現在、話題の深層学習の先にある「深層強化学習」の基本知識と応用情報を入手し、是非、研究やビジネスに活用して頂ければ幸いです。


【受講対象】


 ・AIの最先端知識と技術に興味をお持ちの方。


 ・AIの研究と応用を真剣に検討されている方。


 ・AIを含めた最適化技術の応用に携わっている方。


 ・「最適化とは何か?」を知りたい方。


 ・画像認識・音声認識以外の分野でのAI応用の可能性に興味をお持ちの方。


【講師】


曽我部 東馬 (ソガベ トウマ)氏:電気通信大学 i-パワードエネルギーシステム研究センター&基盤理工学専攻 准教授(博士(理学)) 


【プログラム】


 1 はじめに
  *強化学習の基本概念
  *強化学習・深層学習および深層強化学習の特徴と違い
  *深層強化学習により可能となること
  *多腕バンディット問題をわかりやすく説明
  *強化学習における探索と利用のジレンマ
  *多腕バンディット問題の解法をわかりやすく説明
   ・平均報酬という概念について
   ・平均報酬を更新するための式の導きかた
   ・Epsilon ?greedy
   ・最適初期値設定法
   ・UCB1
   ・Bayesian/Thompson 法の詳細
  *簡易デモ(python):Gridworld(上記4種類解法の実行:直感的に理解する)

 2 基本概念-マルコフ決定過程(MDP)の基本原理のポイント
  *確率過程
  *マルコフ性とは
  *マルコフ鎖とは
  *MDPの定義と式の導き方
  *方策πの定義と価値関数の対応関係
  *状態価値関数[V(s)]におけるベルマン方程式をわかりやすく説明
  *状態行動価値関数[Q(s,a)] におけるベルマン方程式をわかりやすく説明
  *簡易演習デモ(python)1:Gridworld(式を理解するために)
  *最適状態価値関数V_* (s)のポイント
  *最適状態行動価値関数Q_* (s,a)のポイント
  *最適状態価値関数V_* (s)と最適状態行動価値関数Q_* (s,a)の相互関係
  *ベルマン最適性方程式の導きかた
  *簡易デモ(python)2:Gridworld(式を理解する)
  *ディスカッション:最適性と近似性について

 3 中核:強化学習におけるMDP問題の解法 :
  (1)動的計画法の解説と入門:
   *反復法による価値関数を求める:ランダム方策 vs 固定方策
   *最適な方策の探索手法をわかりやすく説明
    ・方策反復法による最適状態価値関数を求める
    ・遷移確率を考慮した方策反復法による
   *最適状態価値関数を求める
    ・価値反復法による最適状態価値関数を求める
   *簡易デモ(python):Gridworld(4種類解法の実行と結果比較:概念を理解する)
  (2)Monte-Carlo(MC)法をわかりやすく解説
   *モデル法とモデルフリー法のちがい
   *経験に基づく学習手法のポイント
   *MC法と多腕バンディットの内在関連性
   *状態価値関数・行動状態価値関数と平均報酬との関係
   *MC法による状態価値関数の求め方とポイント
   *MC法による最適状態行動価値関数Q(s,a)の求め方とポイント
   *簡易デモ(python):Gridworld(2種類MC法の実行と比較:概念を理解する)
  (3)TD学習手法のポイントと入門
   *TD(0)法の説明と式の導きかた
   *SARSA法の説明と式の導きかた
   *Q-学習法の説明と式の導きかた
   *On-PolicyとOff-Policyを詳しく説明
   *簡易デモ(python):Gridworld(3種類TD法の実行と比較:概念を理解する)

 4 拡張ー強化学習における関数近似手法とは(入門編):
  *Tabular法(表形式手法)と近似解法のちがい
  *回帰モデルと誤差関数をあらためて復習
  *最急降下勾配法とMC法との関連性をわかりやすく説明
  *疑似勾配(Semi-Gradient)とは
  *簡単な線形回帰モデルに基いたMC法による状態価値関数V(s,θ)を求める
  *簡単な線形回帰モデルに基いたTD(0)法によるV(s,θ)を求める
  *簡単な線形回帰モデルに基いたSARSA法によるV(s,θ)を求める
  *簡易デモ(python):Gridworld(回帰近似MDP解法の実行:直感的理解)

 5 最前線:深層強化学習の基本概念と最重要ポイント
  *簡易型ニューラルネットワークを応用したQ-学習手法の説明
  *深層Q-学習(DQN)の基本ポイント
  *連続動作空間における強化学習のポイント
  *方策勾配法の基本と式の導き方
  *ガウシアン型行動確率分布の導入
  *方策勾配法による連続動作空間における強化学習の簡易説明
  *深層Actor-Critic法の基本と実行のコツ
  *簡易実演デモ(python):Mountain car, Cartpole, Atariなど (概念の理解)

 6 応用:強化学習と深層強化学習の応用事例
  (1)ヒューマノイドやロボットの制御における深層強化学習の応用事例紹介
  (2)電気制御素子のパラメーター探索における強化学習の応用事例紹介
  (3)蓄電池充放電制御における強化学習の応用事例紹介
  (4)太陽光発電の変動制御における強化学習の応用事例紹介
  (5)簡易実演デモ(python)


【受講料】


・お1人受講の場合 46,000円[税別]/1名
・1口でお申込の場合 57,000円[税別]/1口(3名まで受講可能)


 受講申込ページで2~3名を同時に申し込んだ場合、自動的に1口申し込みと致します。 


      


※セミナーに申し込むにはものづくりドットコム会員登録が必要です

開催日時


10:30

受講料

49,680円(税込)/人

※本文中に提示された主催者の割引は申込後に適用されます

※銀行振込

開催場所

東京都

主催者

キーワード

AI(人工知能)

※セミナーに申し込むにはものづくりドットコム会員登録が必要です

開催日時


10:30

受講料

49,680円(税込)/人

※本文中に提示された主催者の割引は申込後に適用されます

※銀行振込

開催場所

東京都

主催者

キーワード

AI(人工知能)

関連記事

もっと見る