強化学習入門～基本アルゴリズム・深層強化学習・応用（Pythonを用いて）～

☆数あるAI手法の中でも今とくに注目されている「深層強化学習」について、動画やデモを用いてわかりやすく解説する！

講師

電気通信大学 i-パワードエネルギーシステム研究センター
＆基盤理工学専攻　准教授
（株）GRID　最高技術顧問理学博士　曽我部東馬氏

【ご専門】
理論物理計算、デバイス計算、エネルギー学、大規模気象予測計算、機械学習/深層学習/ 強化学習の数理モデリング、最適化計算、量子アルゴリズム、FPGAデバイス開発
【ご略歴・ご活躍】
　物理学の専門家で、東京大学物性研究所、国立分子研究所で学び、ドイツマックス・プランク研究所、イギリスケンブリッジで働いた後、2009年に一旦研究分野から離れ、（株）グリッドの共同設立者として会社を立ち上げる。その後、東京大学　先端科学技術研究センターに研究の場所を移し、特任准教授として量子構造半導体デバイスの開発及びその理論計算、人工知能の研究を行う。2016年より電気通信大学の准教授および（株）GRIDの最高技術顧問を兼任。現在は、再生エネルギー最適化問題と人工知能のアルゴリズム開発、深層強化学習フレームワーク∞ReNomの開発に従事する。

受講料

R&D会員登録していただいた場合、通常1名様申込で49,980円（税込）から
★1名で申込の場合、47,250円（税込）へ割引になります。
★2名同時申込で両名とも会員登録をしていただいた場合、計49,980円（2人目無料）です。

(まだR&D会員未登録の方は、申込みフォームの通信欄に「会員登録情報希望」と記入してください。詳しい情報を送付します。ご登録いただくと、今回から会員受講料が適用可能です。)

受講対象・レベル

・AIの最先端知識と技術に興味をお持ちの方。
・AIの研究と応用を検討されている方。
・AIを含めた最適化技術の応用に携わっている方。
・「最適化とは何か？」を知りたい方。
・画像認識・音声認識以外の分野でのAI応用の可能性に興味をお持ちの方。

必要な予備知識

特に予備知識は必要ありません。基礎からわかりやすく解説いたします

習得できる知識

・強化学習の基本原理と要素技術の基本知識の習得
・深層学習の基本原理と要素技術の基本知識の習得
・深層強化学習の基本原理と応用に関する知見の習得
・最先端最適化技術の可能性と問題点についての知見を習得

趣旨

　世界トップのプロ囲碁棋士に見事に勝利したAlphaGoの出現。このAlphaGoの歴史的な勝利を支えた手法が、数あるAI手法の中でも今とくに注目されている「深層強化学習」です。
　AIの研究や今後のビジネスチャンスを踏まえAIの応用を真剣に検討されている方にとって、深層学習の先にある「深層強化学習手法」の基本原理を理解することは将来の布石につながるでしょう。しかしこの深層強化学習は難解と云われ、内容をかみ砕いてわかりやすく説明している資料は今のところなかなか見当たりません。本セミナーはこのような現状を踏まえセミナーの構成を工夫。まずは基本となる強化学習の中核的な内容について、例題と「動画」を通して皆さんになるべくわかりやすく説明します。その上でセミナー中盤では「深層強化学習」をよりわかり易く理解するための手がかりとして「簡易型の線形回帰近似モデル」を応用した強化学習手法を、簡易デモなどを用いてわかりやすく説明します。そして、いよいよ後半では「最前線：深層強化学習」として、ニューラルネットワーク近似モデルを使用する深層強化学習の理解に迫ります。
　様々な背景を持つ受講者の皆さんが理解しやすいように内容をかみ砕き講義内容の難易度を調整しています。本セミナーを通して「強化学習」とその先にある「深層強化学習」の基本知識と応用情報を入手し、ぜひ研究やビジネスの現場で活用して頂ければ幸いです。

プログラム

第１部　はじめに
　1-1．強化学習の基本概念
　1-2．多腕バンディット問題をわかりやすく説明
　1-3．強化学習における探索と利用のジレンマ
　1-4．多腕バンディット問題の解法をわかりやすく説明
　・平均報酬という概念について
　・平均報酬を更新するための式の導きかた
　・Epsilon –greedy
　・最適初期値設定法
　・UCB1
　・Bayesian/Thompson 法の詳細
　1-5．簡易デモ(python)：Gridworld（上記４種類解法の実行：直感的に理解する）

第２部　基本概念—マルコフ決定過程（MDP）の基本原理のポイント
　2-1．確率過程
　2-2．マルコフ性とは
　2-3．マルコフ鎖とは
　2-4．MDPの定義と式の導き方
　2-5．方策πの定義と価値関数の対応関係
　2-6．状態価値関数[V(s)]におけるベルマン方程式をわかりやすく説明
　2-7．状態行動価値関数[Q(s,a)] におけるベルマン方程式をわかりやすく説明
　2-8．簡易演習デモ(python)1：Gridworld（式を理解するために）
　2-9．最適状態価値関数 V＊(s)のポイント
　2-10．最適状態行動価値関数 Q＊(s,a)のポイント
　2-11．最適状態価値関数 V＊(s)と最適状態行動価値関数 Q＊(s,a)の相互関係
　2-12．ベルマン最適性方程式の導きかた
　2-13．簡易デモ(python)2：Gridworld（式を理解する）
　2-14．ディスカッション：最適性と近似性について

第３部　中核　強化学習におけるMDP問題の解法
　3-1．動的計画法の解説と入門：
　（1）反復法による価値関数を求める：ランダム方策 vs 固定方策
　（2）最適な方策の探索手法をわかりやすく説明
　　・方策反復法による最適状態価値関数を求める
　　・遷移確率を考慮した方策反復法による最適状態価値関数を求める
　　・価値反復法による最適状態価値関数を求める
　（3）簡易デモ(python)：Gridworld（４種類解法の実行と結果比較：概念を理解する）
　3-2．Monte-Carlo(MC)法をわかりやすく解説
　（1）モデル法とモデルフリー法のちがい
　（2）経験に基づく学習手法のポイント
　（3）MC法と多腕バンディットの内在関連性
　（4）状態価値関数・行動状態価値関数と平均報酬との関係
　（5）MC法による状態価値関数の求め方とポイント
　（6）MC法による最適状態行動価値関数 Q(s,a)の求め方とポイント
　（7）簡易デモ(python)：Gridworld（２種類MC法の実行と比較：概念を理解する）
　3-3．TD学習手法のポイントと入門
　（1）TD（０）法の説明と式の導きかた
　（2）SARSA法の説明と式の導きかた
　（3）Q-学習法の説明と式の導きかた
　（4）On-PolicyとOff-Policyを詳しく説明
　（5）簡易デモ(python)：Gridworld（３種類TD法の実行と比較：概念を理解する）

第４部　拡張ー強化学習における関数近似手法とは（入門編）
　4-1．Tabular法（表形式手法）と近似解法のちがい
　4-2．回帰モデルと誤差関数をあらためて復習
　4-3．最急降下勾配法とMC法との関連性をわかりやすく説明
　4-4．疑似勾配（Semi-Gradient）とは
　4-5．簡単な線形回帰モデルに基いたMC法による状態価値関数 V(s,θ)を求める
　4-6．簡単な線形回帰モデルに基いたTD(0)法による V(s,θ)を求める
　4-7．簡単な線形回帰モデルに基いたSARSA法による V(s,θ)を求める
　4-8．簡易デモ(python)：Gridworld（回帰近似MDP解法の実行：直感的理解）

第５部　最前線　深層強化学習の基本概念と最重要ポイント
　5-1．簡易型ニューラルネットワークを応用したQ-学習手法の説明
　5-2．深層Q-学習（DQN）の基本ポイント
　5-3．連続動作空間における強化学習のポイント
　5-4．方策勾配法の基本と式の導き方
　5-5．ガウシアン型行動確率分布の導入
　5-6．方策勾配法による連続動作空間における強化学習の簡易説明
　5-7．深層Actor-Critic法の基本と実行のコツ
　5-8．簡易実演デモ(python)： Mountain car, Cartpole, Atariなど (概念の理解)

第６部　応用　強化学習と深層強化学習の応用事例
　6-1．ヒューマノイドやロボットの制御における深層強化学習の応用事例紹介
　6-2．電気制御素子のパラメーター探索における強化学習の応用事例紹介
　6-3．蓄電池充放電制御における強化学習の応用事例紹介
　6-4．太陽光発電の変動制御における強化学習の応用事例紹介
　6-5．簡易実演デモ(python)：(応用の可能性と効果を議論する)

【質疑応答・名刺交換】

キーワード強化学習,深層強化学習,AI,人工知能,セミナー,研修,講習

※セミナーに申し込むにはものづくりドットコム会員登録が必要です

開催日時

2017/11/24（金）
10:30 ～ 16:30　
締めきりました

受講料

49,980円（税込）/人

※本文中に提示された主催者の割引は申込後に適用されます

※銀行振込

開催場所

東京都

MAP

【江東区】カメリアプラザ（商工情報センター）

【JR・東武】亀戸駅

主催者

（株）Ｒ＆Ｄ支援センター

キーワード

AI（人工知能）機械学習・ディープラーニング

このセミナーについて質問する

※セミナーに申し込むにはものづくりドットコム会員登録が必要です

開催日時

2017/11/24（金）
10:30 ～ 16:30　
締めきりました

受講料

49,980円（税込）/人

※本文中に提示された主催者の割引は申込後に適用されます

※銀行振込

開催場所

東京都

MAP

【江東区】カメリアプラザ（商工情報センター）

【JR・東武】亀戸駅

主催者

（株）Ｒ＆Ｄ支援センター

キーワード

AI（人工知能）機械学習・ディープラーニング

このセミナーについて質問する

生成AI、工場でどこまで使えるのか（その３）生成AIの能力比較
- 解説記事
近い将来、対話型AIが現行の検索エンジンにとって代わる可能性が指摘されていますが、今回は、連載解説（その３）生成AIの能力比較。を解説...
生成AI、工場でどこまで使えるのか（その２）生成AIの回答を検証する
- 解説記事
近い将来、対話型AIが現行の検索エンジンにとって代わる可能性が指摘されていますが、今回は、連載解説（その２）生成AIの回答を検証するを...
生成AI、工場でどこまで使えるのか（その１）プロンプトエンジニアリング
- 解説記事
近い将来、対話型AIが検索エンジンにとって代わる可能性が指摘されていますが、今回は、生成AIの活用方法をいろいろと試す「生成AIは、工...
シンギュラリティの危機～職を失う人びと～あなたは生き残れるか
- 解説記事
【目次】 1. シンギュラリティの到来人間は誰もこんなディストピア※1を望んではいなかった。これはシンギュラリティが到来した後、...

Pythonではじめる機械学習入門講座

■AI活用人材育成講座■『機械学習（ディープラーニング）の基礎・活用・実践<全3回>』

小規模データに対する機械学習の効果的適用法

機械学習を用いた画像認識技術の基礎とその応用

AIプログラミングができない要素技術者自身で開発できる人工知能技術～深層学習とMTシステムの基礎・学習データ最小化・開発実務応用入門～【AI構築デモ付き（希望者にAI構築・計算方法Excel資料提供）】

画像認識のためのディープラーニングとモデルの軽量化

■AI活用人材育成講座<第1回>■『Python基礎と機械学習基礎』

ベイズ統計から学ぶ統計的機械学習

強化学習入門～基本アルゴリズム・深層強化学習・応用（Pythonを用いて）～

講師

受講料

受講対象・レベル

必要な予備知識

習得できる知識

趣旨

プログラム

Pythonではじめる機械学習入門講座

■AI活用人材育成講座■『機械学習（ディープラーニング）の基礎・活用・実践<全3回>』

小規模データに対する機械学習の効果的適用法

機械学習を用いた画像認識技術の基礎とその応用

機械学習・人工知能　業務活用の手引き

人工知能（ＡＩ）関連技術の法的実務の課題と対応の方向性

何ができるのか？何が必要なのか？　産業利用を考える人のための人工知能・機械学習・ディープラーニング関連技術とその活用

ＩｏＴ／ＡＩの活用は製造業に革新をもたらすか？　製造現場・工場におけるＩｏＴの利用と可能性

ものづくりのためのＡＩ入門講座

次世代ＡＩメガトレンド：世界の潮流と究極のＡＩを総合解説

生成AI、工場でどこまで使えるのか（その３）生成AIの能力比較

生成AI、工場でどこまで使えるのか（その２）生成AIの回答を検証する

生成AI、工場でどこまで使えるのか（その１）プロンプトエンジニアリング

シンギュラリティの危機～職を失う人びと～あなたは生き残れるか

ものづくりセミナーサーチ

日本最大級の技術・生産セミナーポータルサイト

Pythonではじめる機械学習入門講座

■AI活用人材育成講座■『機械学習（ディープラーニング）の基礎・活用・実践<全3回>』

小規模データに対する機械学習の効果的適用法

機械学習を用いた画像認識技術の基礎とその応用

AIプログラミングができない要素技術者自身で開発できる人工知能技術 ～深層学習とMTシステムの基礎・学習データ最小化・開発実務応用入門～【AI構築デモ付き（希望者にAI構築・計算方法Excel資料提供）】

画像認識のためのディープラーニングとモデルの軽量化

■AI活用人材育成講座<第1回>■『Python基礎と機械学習基礎』

ベイズ統計から学ぶ統計的機械学習

強化学習入門 ～基本アルゴリズム・深層強化学習・応用（Pythonを用いて）～

講師

受講料

受講対象・レベル

必要な予備知識

習得できる知識

趣旨

プログラム

関連セミナー

Pythonではじめる機械学習入門講座

■AI活用人材育成講座■『機械学習（ディープラーニング）の基礎・活用・実践<全3回>』

小規模データに対する機械学習の効果的適用法

機械学習を用いた画像認識技術の基礎とその応用

関連教材

機械学習・人工知能 業務活用の手引き

人工知能（ＡＩ）関連技術の法的実務の課題と対応の方向性

何ができるのか？何が必要なのか？ 産業利用を考える人のための人工知能・機械学習・ディープラーニング関連技術とその活用

ＩｏＴ／ＡＩの活用は製造業に革新をもたらすか？ 製造現場・工場におけるＩｏＴの利用と可能性

ものづくりのためのＡＩ入門講座

次世代ＡＩメガトレンド：世界の潮流と究極のＡＩを総合解説

関連記事

生成AI、工場でどこまで使えるのか（その３）生成AIの能力比較

生成AI、工場でどこまで使えるのか（その２）生成AIの回答を検証する

生成AI、工場でどこまで使えるのか（その１）プロンプトエンジニアリング

シンギュラリティの危機～職を失う人びと～あなたは生き残れるか

ものづくりセミナーサーチ

日本最大級の技術・生産セミナーポータルサイト

AIプログラミングができない要素技術者自身で開発できる人工知能技術～深層学習とMTシステムの基礎・学習データ最小化・開発実務応用入門～【AI構築デモ付き（希望者にAI構築・計算方法Excel資料提供）】

強化学習入門～基本アルゴリズム・深層強化学習・応用（Pythonを用いて）～

機械学習・人工知能　業務活用の手引き

何ができるのか？何が必要なのか？　産業利用を考える人のための人工知能・機械学習・ディープラーニング関連技術とその活用

ＩｏＴ／ＡＩの活用は製造業に革新をもたらすか？　製造現場・工場におけるＩｏＴの利用と可能性