強化学習入門 ~基本アルゴリズム・深層強化学習・応用(Pythonを用いて)~

☆数あるAI手法の中でも今とくに注目されている「深層強化学習」について、動画やデモを用いてわかりやすく解説する!


講師


電気通信大学 i-パワードエネルギーシステム研究センター
&基盤理工学専攻 准教授
(株)GRID 最高技術顧問 理学博士 曽我部 東馬 氏

【ご専門】
理論物理計算、デバイス計算、エネルギー学、大規模気象予測計算、機械学習/深層学習/ 強化学習の数理モデリング、最適化計算、量子アルゴリズム、FPGAデバイス開発
【ご略歴・ご活躍】
 物理学の専門家で、東京大学物性研究所、国立分子研究所で学び、ドイツ マックス・プランク研究所、イギリス ケンブリッジで働いた後、2009年に一旦研究分野から離れ、(株)グリッドの共同設立者として会社を立ち上げる。その後、東京大学 先端科学技術研究センターに研究の場所を移し、特任准教授として量子構造半導体デバイスの開発及びその理論計算、人工知能の研究を行う。2016年より電気通信大学の准教授および(株)GRIDの最高技術顧問を兼任。現在は、再生エネルギー最適化問題と人工知能のアルゴリズム開発、深層強化学習フレームワーク∞ReNomの開発に従事する。


受講料


R&D会員登録していただいた場合、通常1名様申込で49,980円(税込)から
★1名で申込の場合、47,250円(税込)へ割引になります。
★2名同時申込で両名とも会員登録をしていただいた場合、計49,980円(2人目無料)です。


(まだR&D会員未登録の方は、申込みフォームの通信欄に「会員登録情報希望」と記入してください。詳しい情報を送付します。ご登録いただくと、今回から会員受講料が適用可能です。)


受講対象・レベル


・AIの最先端知識と技術に興味をお持ちの方。
・AIの研究と応用を検討されている方。
・AIを含めた最適化技術の応用に携わっている方。
・「最適化とは何か?」を知りたい方。
・画像認識・音声認識以外の分野でのAI応用の可能性に興味をお持ちの方。


必要な予備知識


特に予備知識は必要ありません。基礎からわかりやすく解説いたします


習得できる知識


・強化学習の基本原理と要素技術の基本知識の習得
・深層学習の基本原理と要素技術の基本知識の習得
・深層強化学習の基本原理と応用に関する知見の習得
・最先端最適化技術の可能性と問題点についての知見を習得


趣旨


 世界トップのプロ囲碁棋士に見事に勝利したAlphaGoの出現。このAlphaGoの歴史的な勝利を支えた手法が、数あるAI手法の中でも今とくに注目されている「深層強化学習」です。
 AIの研究や今後のビジネスチャンスを踏まえAIの応用を真剣に検討されている方にとって、深層学習の先にある「深層強化学習手法」の基本原理を理解することは将来の布石につながるでしょう。しかしこの深層強化学習は難解と云われ、内容をかみ砕いてわかりやすく説明している資料は今のところなかなか見当たりません。本セミナーはこのような現状を踏まえセミナーの構成を工夫。まずは基本となる強化学習の中核的な内容について、例題と「動画」を通して皆さんになるべくわかりやすく説明します。その上でセミナー中盤では「深層強化学習」をよりわかり易く理解するための手がかりとして「簡易型の線形回帰近似モデル」を応用した強化学習手法を、簡易デモなどを用いてわかりやすく説明します。そして、いよいよ後半では「最前線:深層強化学習」として、ニューラルネットワーク近似モデルを使用する深層強化学習の理解に迫ります。
 様々な背景を持つ受講者の皆さんが理解しやすいように内容をかみ砕き講義内容の難易度を調整しています。本セミナーを通して「強化学習」とその先にある「深層強化学習」の基本知識と応用情報を入手し、ぜひ研究やビジネスの現場で活用して頂ければ幸いです。


プログラム


第1部 はじめに
 1-1.強化学習の基本概念
 1-2.多腕バンディット問題をわかりやすく説明
 1-3.強化学習における探索と利用のジレンマ
 1-4.多腕バンディット問題の解法をわかりやすく説明
 ・平均報酬という概念について
 ・平均報酬を更新するための式の導きかた
 ・Epsilon –greedy
 ・最適初期値設定法
 ・UCB1
 ・Bayesian/Thompson 法の詳細
 1-5.簡易デモ(python):Gridworld(上記4種類解法の実行:直感的に理解する)

第2部 基本概念—マルコフ決定過程(MDP)の基本原理のポイント 
 2-1.確率過程
 2-2.マルコフ性とは
 2-3.マルコフ鎖とは
 2-4.MDPの定義と式の導き方
 2-5.方策πの定義と価値関数の対応関係
 2-6.状態価値関数[V(s)]におけるベルマン方程式をわかりやすく説明
 2-7.状態行動価値関数[Q(s,a)] におけるベルマン方程式をわかりやすく説明
 2-8.簡易演習デモ(python)1:Gridworld(式を理解するために)
 2-9.最適状態価値関数 V*(s)のポイント
 2-10.最適状態行動価値関数 Q*(s,a)のポイント
 2-11.最適状態価値関数 V*(s)と最適状態行動価値関数 Q*(s,a)の相互関係
 2-12.ベルマン最適性方程式の導きかた
 2-13.簡易デモ(python)2:Gridworld(式を理解する)
 2-14.ディスカッション:最適性と近似性について

第3部 中核 強化学習におけるMDP問題の解法
 3-1.動的計画法の解説と入門:
 (1)反復法による価値関数を求める:ランダム方策 vs 固定方策
 (2)最適な方策の探索手法をわかりやすく説明
  ・方策反復法による最適状態価値関数を求める
  ・遷移確率を考慮した方策反復法による最適状態価値関数を求める
  ・価値反復法による最適状態価値関数を求める
 (3)簡易デモ(python):Gridworld(4種類解法の実行と結果比較:概念を理解する)
 3-2.Monte-Carlo(MC)法をわかりやすく解説
 (1)モデル法とモデルフリー法のちがい
 (2)経験に基づく学習手法のポイント
 (3)MC法と多腕バンディットの内在関連性
 (4)状態価値関数・行動状態価値関数と平均報酬との関係
 (5)MC法による状態価値関数の求め方とポイント
 (6)MC法による最適状態行動価値関数 Q(s,a)の求め方とポイント
 (7)簡易デモ(python):Gridworld(2種類MC法の実行と比較:概念を理解する)
 3-3.TD学習手法のポイントと入門
 (1)TD(0)法の説明と式の導きかた
 (2)SARSA法の説明と式の導きかた
 (3)Q-学習法の説明と式の導きかた
 (4)On-PolicyとOff-Policyを詳しく説明
 (5)簡易デモ(python):Gridworld(3種類TD法の実行と比較:概念を理解する)

第4部 拡張ー強化学習における関数近似手法とは(入門編)
 4-1.Tabular法(表形式手法)と近似解法のちがい
 4-2.回帰モデルと誤差関数をあらためて復習
 4-3.最急降下勾配法とMC法との関連性をわかりやすく説明
 4-4.疑似勾配(Semi-Gradient)とは
 4-5.簡単な線形回帰モデルに基いたMC法による状態価値関数 V(s,θ)を求める
 4-6.簡単な線形回帰モデルに基いたTD(0)法による V(s,θ)を求める
 4-7.簡単な線形回帰モデルに基いたSARSA法による V(s,θ)を求める
 4-8.簡易デモ(python):Gridworld(回帰近似MDP解法の実行:直感的理解)

第5部 最前線 深層強化学習の基本概念と最重要ポイント
 5-1.簡易型ニューラルネットワークを応用したQ-学習手法の説明
 5-2.深層Q-学習(DQN)の基本ポイント
 5-3.連続動作空間における強化学習のポイント
 5-4.方策勾配法の基本と式の導き方
 5-5.ガウシアン型行動確率分布の導入
 5-6.方策勾配法による連続動作空間における強化学習の簡易説明
 5-7.深層Actor-Critic法の基本と実行のコツ
 5-8.簡易実演デモ(python): Mountain car, Cartpole, Atariなど (概念の理解)

第6部 応用 強化学習と深層強化学習の応用事例
 6-1.ヒューマノイドやロボットの制御における深層強化学習の応用事例紹介
 6-2.電気制御素子のパラメーター探索における強化学習の応用事例紹介
 6-3.蓄電池充放電制御における強化学習の応用事例紹介
 6-4.太陽光発電の変動制御における強化学習の応用事例紹介
 6-5.簡易実演デモ(python):(応用の可能性と効果を議論する)

 【質疑応答・名刺交換】

キーワード 強化学習,深層強化学習,AI,人工知能,セミナー,研修,講習


※セミナーに申し込むにはものづくりドットコム会員登録が必要です

開催日時


10:30

受講料

49,980円(税込)/人

※本文中に提示された主催者の割引は申込後に適用されます

※銀行振込

開催場所

東京都

MAP

【江東区】カメリアプラザ(商工情報センター)

【JR・東武】亀戸駅

主催者

キーワード

AI(人工知能)   機械学習・ディープラーニング

※セミナーに申し込むにはものづくりドットコム会員登録が必要です

開催日時


10:30

受講料

49,980円(税込)/人

※本文中に提示された主催者の割引は申込後に適用されます

※銀行振込

開催場所

東京都

MAP

【江東区】カメリアプラザ(商工情報センター)

【JR・東武】亀戸駅

主催者

キーワード

AI(人工知能)   機械学習・ディープラーニング

関連記事

もっと見る