強化学習入門～基本アルゴリズムから深層強化学習・応用（Pythonを用いて）まで～

　世界トップのプロ囲碁棋士に見事に勝利したAlphaGoの出現により、日本を含め世界中でAIに対する期待が高まっています。このAlphaGoの歴史的な勝利を支えた手法、すなわち「深層強化学習手法」が一躍注目を集めています。ディープラーニングの先にあり一躍注目を集める「深層強化学習」。ＡＩの研究やビジネスの応用にはその基本原理を理解することが将来の布石につながるでしょう。しかしこの深層強化学習、難解と云われ内容をかみ砕きわかりやすく説明している資料は今のところなかなか見当たりません。

　本セミナーはこのような現状を踏まえセミナーの構成を工夫。まずは基本となる強化学習の中核的な内容について、例題と「動画」を通してなるべくわかりやすく説明します。その上でセミナー中盤では「深層強化学習」をよりわかり易く理解するための手がかりとして「簡易型の線形回帰近似モデル」を応用した強化学習手法を、簡易デモなどを用いてわかりやすく説明します。

　そして、いよいよ後半では「最前線：深層強化学習」として、ニューラルネットワーク近似モデルを使用する深層強化学習の理解に迫ります。

　具体例とともに‘なるほど’と納得できるセミナー。「強化学習」とその先にある「深層強化学習」の基本知識と応用情報を入手し、ぜひ研究やビジネスの現場で活用して頂ければ幸いです。

【受講対象】

　・AIの最先端知識と技術に興味をお持ちの方。・AIの研究と応用を真剣に検討されている方。・AIを含めた最適化技術の応用に携わっている方。・「最適化とは何か？」を知りたい方。・画像認識・音声認識以外の分野でのAI応用の可能性に興味をお持ちの方。

【受講後、習得できること】

　・強化学習の基本原理と要素技術の基本知識の習得・深層学習の基本原理と要素技術の基本知識の習得・深層強化学習の基本原理と応用に関する知見の習得・最先端最適化技術の可能性と問題点についての知見を習得

【講師】

曽我部　東馬 (ソガベ　トウマ)氏：電気通信大学　i-パワードエネルギーシステム研究センター＆基盤理工学専攻　准教授（博士（理学））　

【プログラム】

　1　はじめに
　　＊強化学習の基本概念
　　＊強化学習・深層学習および深層強化学習の特徴と違い
　　＊深層強化学習により可能となること
　　＊多腕バンディット問題をわかりやすく説明
　　＊強化学習における探索と利用のジレンマ
　　＊多腕バンディット問題の解法をわかりやすく説明
　　　・平均報酬という概念について
　　　・平均報酬を更新するための式の導きかた
　　　・Epsilon ?greedy
　　　・最適初期値設定法
　　　・UCB1
　　　・Bayesian/Thompson 法の詳細
　　＊簡易デモ(python)：Gridworld（上記４種類解法の実行：直感的に理解する）

　2　基本概念-マルコフ決定過程（MDP）の基本原理のポイント
　　＊確率過程
　　＊マルコフ性とは
　　＊マルコフ鎖とは
　　＊MDPの定義と式の導き方
　　＊方策πの定義と価値関数の対応関係
　　＊状態価値関数[V(s)]におけるベルマン方程式をわかりやすく説明
　　＊状態行動価値関数[Q(s,a)] におけるベルマン方程式をわかりやすく説明
　　＊簡易演習デモ(python)1：Gridworld（式を理解するために）
　　＊最適状態価値関数V_* (s)のポイント
　　＊最適状態行動価値関数Q_* (s,a)のポイント
　　＊最適状態価値関数V_* (s)と最適状態行動価値関数Q_* (s,a)の相互関係
　　＊ベルマン最適性方程式の導きかた
　　＊簡易デモ(python)2：Gridworld（式を理解する）
　　＊ディスカッション：最適性と近似性について

　3　中核：強化学習におけるMDP問題の解法：
　　(1)動的計画法の解説と入門：
　　　＊反復法による価値関数を求める：ランダム方策 vs 固定方策
　　　＊最適な方策の探索手法をわかりやすく説明
　　　　・方策反復法による最適状態価値関数を求める
　　　　・遷移確率を考慮した方策反復法による
　　　＊最適状態価値関数を求める
　　　　・価値反復法による最適状態価値関数を求める
　　　＊簡易デモ(python)：Gridworld（４種類解法の実行と結果比較：概念を理解する）
　　(2)Monte-Carlo(MC)法をわかりやすく解説
　　　＊モデル法とモデルフリー法のちがい
　　　＊経験に基づく学習手法のポイント
　　　＊MC法と多腕バンディットの内在関連性
　　　＊状態価値関数・行動状態価値関数と平均報酬との関係
　　　＊MC法による状態価値関数の求め方とポイント
　　　＊MC法による最適状態行動価値関数Q(s,a)の求め方とポイント
　　　＊簡易デモ(python)：Gridworld（２種類MC法の実行と比較：概念を理解する）
　　(3)TD学習手法のポイントと入門
　　　＊TD（０）法の説明と式の導きかた
　　　＊SARSA法の説明と式の導きかた
　　　＊Q-学習法の説明と式の導きかた
　　　＊On-PolicyとOff-Policyを詳しく説明
　　　＊簡易デモ(python)：Gridworld（３種類TD法の実行と比較：概念を理解する）

　4　拡張ー強化学習における関数近似手法とは（入門編）：
　　＊Tabular法（表形式手法）と近似解法のちがい
　　＊回帰モデルと誤差関数をあらためて復習
　　＊最急降下勾配法とMC法との関連性をわかりやすく説明
　　＊疑似勾配（Semi-Gradient）とは
　　＊簡単な線形回帰モデルに基いたMC法による状態価値関数V(s,θ)を求める
　　＊簡単な線形回帰モデルに基いたTD(0)法によるV(s,θ)を求める
　　＊簡単な線形回帰モデルに基いたSARSA法によるV(s,θ)を求める
　　＊簡易デモ(python)：Gridworld（回帰近似MDP解法の実行：直感的理解）

　5　最前線：深層強化学習の基本概念と最重要ポイント
　　＊簡易型ニューラルネットワークを応用したQ-学習手法の説明
　　＊深層Q-学習（DQN）の基本ポイント
　　＊連続動作空間における強化学習のポイント
　　＊方策勾配法の基本と式の導き方
　　＊ガウシアン型行動確率分布の導入
　　＊方策勾配法による連続動作空間における強化学習の簡易説明
　　＊深層Actor-Critic法の基本と実行のコツ
　　＊簡易実演デモ(python)：Mountain car, Cartpole, Atariなど (概念の理解)

　6　応用：強化学習と深層強化学習の応用事例
　　(1)ヒューマノイドやロボットの制御における深層強化学習の応用事例紹介
　　(2)電気制御素子のパラメーター探索における強化学習の応用事例紹介
　　(3)蓄電池充放電制御における強化学習の応用事例紹介
　　(4)太陽光発電の変動制御における強化学習の応用事例紹介
　　(5)簡易実演デモ(python)

【受講料】

・お1人受講の場合　46,000円[税別]／1名
・1口でお申込の場合　57,000円[税別]／1口（3名まで受講可能）

　受講申込ページで2～3名を同時に申し込んだ場合、自動的に1口申し込みと致します。　

※セミナーに申し込むにはものづくりドットコム会員登録が必要です

開催日時

2018/01/26（金）
10:30 ～ 16:30　
締めきりました

受講料

49,680円（税込）/人

※本文中に提示された主催者の割引は申込後に適用されます

※銀行振込

開催場所

東京都

主催者

株式会社トリケップス

キーワード

機械学習・ディープラーニング

このセミナーについて質問する

※セミナーに申し込むにはものづくりドットコム会員登録が必要です

開催日時

2018/01/26（金）
10:30 ～ 16:30　
締めきりました

受講料

49,680円（税込）/人

※本文中に提示された主催者の割引は申込後に適用されます

※銀行振込

開催場所

東京都

主催者

株式会社トリケップス

キーワード

機械学習・ディープラーニング

このセミナーについて質問する

情報の関係性を意識した話し方とは、学習効果を最大化する伝え方
- 解説記事
【目次】 1. 学習効果を最大化する伝え方とにかくつまらない。話がダラダラ続く。テキストに書いてあることを読み続ける...
新製品の需要予測とは：データ分析講座（その325）需要をどう予測するのか
- 解説記事
企業は、消費者に新しい価値を提案することで、市場シェアを拡大し、全体的な売上と利益の成長を享受したいと考えています。そのために、既存製...
クリーン化について（その132）人財育成（その33）クリーン化の着眼点
- 解説記事
前回のクリーン化について（その131）人財育成（その32）の続きです。今回は、クリーン化の着眼点について説明します。クリーン化について...
普通の組織をイノベーティブにする処方箋 (その174)イノベーション創出
- 解説記事
【目次】　　【この連載の前回：普通の組織をイノベーティブにする処方箋 (その173)へのリンク】前回まで自分が生物...

機械学習を用いた画像認識技術の基礎とその応用

Pythonではじめる機械学習入門講座

■AI活用人材育成講座■『機械学習（ディープラーニング）の基礎・活用・実践<全3回>』

画像認識のためのディープラーニングとモデルの軽量化

画像認識技術入門

画像認識技術の初歩

■AI活用人材育成講座<第1回>■『Python基礎と機械学習基礎』

第一原理計算と機械学習を用いた材料設計～基礎原理から機械学習力場活用の最新動向まで～

強化学習入門～基本アルゴリズムから深層強化学習・応用（Pythonを用いて）まで～

【受講対象】

【受講後、習得できること】

【講師】

【プログラム】

【受講料】

機械学習を用いた画像認識技術の基礎とその応用

Pythonではじめる機械学習入門講座

■AI活用人材育成講座■『機械学習（ディープラーニング）の基礎・活用・実践<全3回>』

画像認識のためのディープラーニングとモデルの軽量化

品質問題をなくす設計と設計審査の考え方　”ＦＭＥＡ辞書”

徹底的に成功事例に学ぶ！「５Ｓの導入と強化」

「５Ｓ」の効果的活用と継続方法

新ビジネス・新商品開発　目からウロコのアイディア発想法　～異分野こそアイディアの宝庫～

品質問題の未然防止は難しくない！－品質工学の基本的な考え方－

ＱＦＤセミナー（基礎編）－その原点を考える

情報の関係性を意識した話し方とは、学習効果を最大化する伝え方

新製品の需要予測とは：データ分析講座（その325）需要をどう予測するのか

クリーン化について（その132）人財育成（その33）クリーン化の着眼点

普通の組織をイノベーティブにする処方箋 (その174)イノベーション創出

ものづくりセミナーサーチ

日本最大級の技術・生産セミナーポータルサイト

機械学習を用いた画像認識技術の基礎とその応用

Pythonではじめる機械学習入門講座

■AI活用人材育成講座■『機械学習（ディープラーニング）の基礎・活用・実践<全3回>』

画像認識のためのディープラーニングとモデルの軽量化

画像認識技術入門

画像認識技術の初歩

■AI活用人材育成講座<第1回>■『Python基礎と機械学習基礎』

第一原理計算と機械学習を用いた材料設計 ～基礎原理から機械学習力場活用の最新動向まで～

強化学習入門～基本アルゴリズムから深層強化学習・応用（Pythonを用いて）まで～

【受講対象】

【受講後、習得できること】

【講師】

【プログラム】

【受講料】

関連セミナー

機械学習を用いた画像認識技術の基礎とその応用

Pythonではじめる機械学習入門講座

■AI活用人材育成講座■『機械学習（ディープラーニング）の基礎・活用・実践<全3回>』

画像認識のためのディープラーニングとモデルの軽量化

関連教材

品質問題をなくす設計と設計審査の考え方 ”ＦＭＥＡ辞書”

徹底的に成功事例に学ぶ！「５Ｓの導入と強化」

「５Ｓ」の効果的活用と継続方法

新ビジネス・新商品開発 目からウロコのアイディア発想法 ～異分野こそアイディアの宝庫～

品質問題の未然防止は難しくない！－品質工学の基本的な考え方－

ＱＦＤセミナー（基礎編）－その原点を考える

関連記事

情報の関係性を意識した話し方とは、学習効果を最大化する伝え方

新製品の需要予測とは：データ分析講座（その325）需要をどう予測するのか

クリーン化について（その132）人財育成（その33）クリーン化の着眼点

普通の組織をイノベーティブにする処方箋 (その174)イノベーション創出

ものづくりセミナーサーチ

日本最大級の技術・生産セミナーポータルサイト

第一原理計算と機械学習を用いた材料設計～基礎原理から機械学習力場活用の最新動向まで～

品質問題をなくす設計と設計審査の考え方　”ＦＭＥＡ辞書”

新ビジネス・新商品開発　目からウロコのアイディア発想法　～異分野こそアイディアの宝庫～