強化学習入門～基本アルゴリズムから深層強化学習・応用まで～

☆本セミナーは、定員満了のため、受付を終了しました。

　世界トップのプロ囲碁棋士に見事に勝利したAlphaGoの出現により、日本を含め世界中でAIに対する期待が高まっています。このAlphaGoの歴史的な勝利を支えた手法、すなわち「深層強化学習手法」が一躍注目を集めています。AIの研究や将来のビジネスチャンスを踏まえたAIの応用を真剣に検討されている方にとっては、深層学習の先にある「深層強化学習手法」の基本原理をしっかり理解することがマストといえるでしょう。しかし現状としては、深層強化学習手法をわかりやすく説明している資料はなかなか見当たりません。

　本セミナーはこのような現状を踏まえ、深層強化学習の最も基本となる強化学習の中核的な内容を例題と「動画」を通して、みなさんになるべくわかりやすく説明します。さらに本セミナーでは、難解といわれる「深層強化学習」をよりわかり易く理解するために、まず「簡易型の線形回帰近似モデル」を応用した強化学習手法を簡易デモなどを用いてわかりやすく説明します。これによりニューラルネットワーク近似モデルを使用する深層強化学習への理解が更に深まることを期待します。様々な背景を持つ受講者のみなさんが理解しやすく、実際に役立てられるように講義内容の難易度を調整しています。本セミナーを通して、現在、話題の深層学習の先にある「深層強化学習」の基本知識と応用情報を入手し、是非、研究やビジネスに活用して頂ければ幸いです。

【受講対象】

　・AIの最先端知識と技術に興味をお持ちの方。

　・AIの研究と応用を真剣に検討されている方。

　・AIを含めた最適化技術の応用に携わっている方。

　・「最適化とは何か？」を知りたい方。

　・画像認識・音声認識以外の分野でのAI応用の可能性に興味をお持ちの方。

【講師】

曽我部　東馬 (ソガベ　トウマ)氏：電気通信大学　i-パワードエネルギーシステム研究センター＆基盤理工学専攻　准教授（博士（理学））　

【プログラム】

　1　はじめに
　　＊強化学習の基本概念
　　＊強化学習・深層学習および深層強化学習の特徴と違い
　　＊深層強化学習により可能となること
　　＊多腕バンディット問題をわかりやすく説明
　　＊強化学習における探索と利用のジレンマ
　　＊多腕バンディット問題の解法をわかりやすく説明
　　　・平均報酬という概念について
　　　・平均報酬を更新するための式の導きかた
　　　・Epsilon ?greedy
　　　・最適初期値設定法
　　　・UCB1
　　　・Bayesian/Thompson 法の詳細
　　＊簡易デモ(python)：Gridworld（上記４種類解法の実行：直感的に理解する）

　2　基本概念-マルコフ決定過程（MDP）の基本原理のポイント
　　＊確率過程
　　＊マルコフ性とは
　　＊マルコフ鎖とは
　　＊MDPの定義と式の導き方
　　＊方策πの定義と価値関数の対応関係
　　＊状態価値関数[V(s)]におけるベルマン方程式をわかりやすく説明
　　＊状態行動価値関数[Q(s,a)] におけるベルマン方程式をわかりやすく説明
　　＊簡易演習デモ(python)1：Gridworld（式を理解するために）
　　＊最適状態価値関数V_* (s)のポイント
　　＊最適状態行動価値関数Q_* (s,a)のポイント
　　＊最適状態価値関数V_* (s)と最適状態行動価値関数Q_* (s,a)の相互関係
　　＊ベルマン最適性方程式の導きかた
　　＊簡易デモ(python)2：Gridworld（式を理解する）
　　＊ディスカッション：最適性と近似性について

　3　中核：強化学習におけるMDP問題の解法：
　　(1)動的計画法の解説と入門：
　　　＊反復法による価値関数を求める：ランダム方策 vs 固定方策
　　　＊最適な方策の探索手法をわかりやすく説明
　　　　・方策反復法による最適状態価値関数を求める
　　　　・遷移確率を考慮した方策反復法による
　　　＊最適状態価値関数を求める
　　　　・価値反復法による最適状態価値関数を求める
　　　＊簡易デモ(python)：Gridworld（４種類解法の実行と結果比較：概念を理解する）
　　(2)Monte-Carlo(MC)法をわかりやすく解説
　　　＊モデル法とモデルフリー法のちがい
　　　＊経験に基づく学習手法のポイント
　　　＊MC法と多腕バンディットの内在関連性
　　　＊状態価値関数・行動状態価値関数と平均報酬との関係
　　　＊MC法による状態価値関数の求め方とポイント
　　　＊MC法による最適状態行動価値関数Q(s,a)の求め方とポイント
　　　＊簡易デモ(python)：Gridworld（２種類MC法の実行と比較：概念を理解する）
　　(3)TD学習手法のポイントと入門
　　　＊TD（０）法の説明と式の導きかた
　　　＊SARSA法の説明と式の導きかた
　　　＊Q-学習法の説明と式の導きかた
　　　＊On-PolicyとOff-Policyを詳しく説明
　　　＊簡易デモ(python)：Gridworld（３種類TD法の実行と比較：概念を理解する）

　4　拡張ー強化学習における関数近似手法とは（入門編）：
　　＊Tabular法（表形式手法）と近似解法のちがい
　　＊回帰モデルと誤差関数をあらためて復習
　　＊最急降下勾配法とMC法との関連性をわかりやすく説明
　　＊疑似勾配（Semi-Gradient）とは
　　＊簡単な線形回帰モデルに基いたMC法による状態価値関数V(s,θ)を求める
　　＊簡単な線形回帰モデルに基いたTD(0)法によるV(s,θ)を求める
　　＊簡単な線形回帰モデルに基いたSARSA法によるV(s,θ)を求める
　　＊簡易デモ(python)：Gridworld（回帰近似MDP解法の実行：直感的理解）

　5　最前線：深層強化学習の基本概念と最重要ポイント
　　＊簡易型ニューラルネットワークを応用したQ-学習手法の説明
　　＊深層Q-学習（DQN）の基本ポイント
　　＊連続動作空間における強化学習のポイント
　　＊方策勾配法の基本と式の導き方
　　＊ガウシアン型行動確率分布の導入
　　＊方策勾配法による連続動作空間における強化学習の簡易説明
　　＊深層Actor-Critic法の基本と実行のコツ
　　＊簡易実演デモ(python)：Mountain car, Cartpole, Atariなど (概念の理解)

　6　応用：強化学習と深層強化学習の応用事例
　　(1)ヒューマノイドやロボットの制御における深層強化学習の応用事例紹介
　　(2)電気制御素子のパラメーター探索における強化学習の応用事例紹介
　　(3)蓄電池充放電制御における強化学習の応用事例紹介
　　(4)太陽光発電の変動制御における強化学習の応用事例紹介
　　(5)簡易実演デモ(python)

【受講料】

・お1人受講の場合　46,000円[税別]／1名
・1口でお申込の場合　57,000円[税別]／1口（3名まで受講可能）

　受講申込ページで2～3名を同時に申し込んだ場合、自動的に1口申し込みと致します。　

※セミナーに申し込むにはものづくりドットコム会員登録が必要です

開催日時

2017/11/13（月）
10:30 ～ 16:30　
締めきりました

受講料

49,680円（税込）/人

※本文中に提示された主催者の割引は申込後に適用されます

※銀行振込

開催場所

東京都

主催者

株式会社トリケップス

キーワード

AI（人工知能）

このセミナーについて質問する

※セミナーに申し込むにはものづくりドットコム会員登録が必要です

開催日時

2017/11/13（月）
10:30 ～ 16:30　
締めきりました

受講料

49,680円（税込）/人

※本文中に提示された主催者の割引は申込後に適用されます

※銀行振込

開催場所

東京都

主催者

株式会社トリケップス

キーワード

AI（人工知能）

このセミナーについて質問する

情報の関係性を意識した話し方とは、学習効果を最大化する伝え方
- 解説記事
【目次】 1. 学習効果を最大化する伝え方とにかくつまらない。話がダラダラ続く。テキストに書いてあることを読み続ける...
新製品の需要予測とは：データ分析講座（その325）需要をどう予測するのか
- 解説記事
企業は、消費者に新しい価値を提案することで、市場シェアを拡大し、全体的な売上と利益の成長を享受したいと考えています。そのために、既存製...
クリーン化について（その132）人財育成（その33）クリーン化の着眼点
- 解説記事
前回のクリーン化について（その131）人財育成（その32）の続きです。今回は、クリーン化の着眼点について説明します。クリーン化について...
普通の組織をイノベーティブにする処方箋 (その174)イノベーション創出
- 解説記事
【目次】　　【この連載の前回：普通の組織をイノベーティブにする処方箋 (その173)へのリンク】前回まで自分が生物...

画像認識のためのディープラーニングとモデルの軽量化

機械学習を用いた画像認識技術の基礎とその応用

画像認識技術入門

画像認識技術の初歩

AIプログラミングができない要素技術者自身で開発できる人工知能技術～深層学習とMTシステムの基礎・学習データ最小化・開発実務応用入門～【AI構築デモ付き（希望者にAI構築・計算方法Excel資料提供）】

■AI活用人材育成講座■『機械学習（ディープラーニング）の基礎・活用・実践<全3回>』

Pythonではじめる機械学習入門講座

AIを業務に活用するためにやるべき10のこと

強化学習入門～基本アルゴリズムから深層強化学習・応用まで～

☆本セミナーは、定員満了のため、受付を終了しました。

【受講対象】

・AIの最先端知識と技術に興味をお持ちの方。

・AIの研究と応用を真剣に検討されている方。

・AIを含めた最適化技術の応用に携わっている方。

・「最適化とは何か？」を知りたい方。

・画像認識・音声認識以外の分野でのAI応用の可能性に興味をお持ちの方。

【講師】

【プログラム】

画像認識のためのディープラーニングとモデルの軽量化

機械学習を用いた画像認識技術の基礎とその応用

画像認識技術入門

画像認識技術の初歩

品質問題をなくす設計と設計審査の考え方　”ＦＭＥＡ辞書”

徹底的に成功事例に学ぶ！「５Ｓの導入と強化」

「５Ｓ」の効果的活用と継続方法

新ビジネス・新商品開発　目からウロコのアイディア発想法　～異分野こそアイディアの宝庫～

品質問題の未然防止は難しくない！－品質工学の基本的な考え方－

ＱＦＤセミナー（基礎編）－その原点を考える

情報の関係性を意識した話し方とは、学習効果を最大化する伝え方

新製品の需要予測とは：データ分析講座（その325）需要をどう予測するのか

クリーン化について（その132）人財育成（その33）クリーン化の着眼点

普通の組織をイノベーティブにする処方箋 (その174)イノベーション創出

ものづくりセミナーサーチ

日本最大級の技術・生産セミナーポータルサイト

画像認識のためのディープラーニングとモデルの軽量化

機械学習を用いた画像認識技術の基礎とその応用

画像認識技術入門

画像認識技術の初歩

AIプログラミングができない要素技術者自身で開発できる人工知能技術 ～深層学習とMTシステムの基礎・学習データ最小化・開発実務応用入門～【AI構築デモ付き（希望者にAI構築・計算方法Excel資料提供）】

■AI活用人材育成講座■『機械学習（ディープラーニング）の基礎・活用・実践<全3回>』

Pythonではじめる機械学習入門講座

AIを業務に活用するためにやるべき10のこと

強化学習入門～基本アルゴリズムから深層強化学習・応用まで～

☆本セミナーは、定員満了のため、受付を終了しました。

【受講対象】

・AIの最先端知識と技術に興味をお持ちの方。

・AIの研究と応用を真剣に検討されている方。

・AIを含めた最適化技術の応用に携わっている方。

・「最適化とは何か？」を知りたい方。

・画像認識・音声認識以外の分野でのAI応用の可能性に興味をお持ちの方。

【講師】

【プログラム】

関連セミナー

画像認識のためのディープラーニングとモデルの軽量化

機械学習を用いた画像認識技術の基礎とその応用

画像認識技術入門

画像認識技術の初歩

関連教材

品質問題をなくす設計と設計審査の考え方 ”ＦＭＥＡ辞書”

徹底的に成功事例に学ぶ！「５Ｓの導入と強化」

「５Ｓ」の効果的活用と継続方法

新ビジネス・新商品開発 目からウロコのアイディア発想法 ～異分野こそアイディアの宝庫～

品質問題の未然防止は難しくない！－品質工学の基本的な考え方－

ＱＦＤセミナー（基礎編）－その原点を考える

関連記事

情報の関係性を意識した話し方とは、学習効果を最大化する伝え方

新製品の需要予測とは：データ分析講座（その325）需要をどう予測するのか

クリーン化について（その132）人財育成（その33）クリーン化の着眼点

普通の組織をイノベーティブにする処方箋 (その174)イノベーション創出

ものづくりセミナーサーチ

日本最大級の技術・生産セミナーポータルサイト

AIプログラミングができない要素技術者自身で開発できる人工知能技術～深層学習とMTシステムの基礎・学習データ最小化・開発実務応用入門～【AI構築デモ付き（希望者にAI構築・計算方法Excel資料提供）】

　・AIの最先端知識と技術に興味をお持ちの方。

　・AIの研究と応用を真剣に検討されている方。

　・AIを含めた最適化技術の応用に携わっている方。

　・「最適化とは何か？」を知りたい方。

　・画像認識・音声認識以外の分野でのAI応用の可能性に興味をお持ちの方。

品質問題をなくす設計と設計審査の考え方　”ＦＭＥＡ辞書”

新ビジネス・新商品開発　目からウロコのアイディア発想法　～異分野こそアイディアの宝庫～