強化学習アルゴリズム入門～「平均」からはじめる基礎と応用～

＜深層強化学習の基本・最新アルゴリズムと応用＞

「強化学習」「深層学習」「深層強化学習」の
基本原理と応用、そして最先端最適化技術へ

応用できる、実務に活かせる目線で、
重要ポイントを理解・習得する講座！

深層学習のさらに先にある、『深層強化学習手法』とは！？

★ AI（人工知能）の応用、ビジネス展開を真剣に検討されている方にとってのマスト！「強化学習」を習得！
★ 現場での深層強化学習の応用ノウハウと経験を解説し、すぐ役立つスキルを持ち帰ることができます。
★「平均」という観点から強化学習の基本が理解できます！
★ 難解な強化学習の原理を、中高生にもなじみ深い「平均値の計算」という観点からわかりやすく解説します。

セミナー講師

電気通信大学 i-パワードエネルギーシステム研究センター＆基盤理工学専攻
准教授　曽我部東馬氏
兼任 (株)GRID 最高技術顧問

【経歴・研究内容・専門・ご活動など】
　物理学の専門家で、東京大学物性研究所、国立分子研究所で学び、ドイツマックス・プランク研究所、イギリスケンブリッジで働いた後、2009年に一旦研究分野から離れ、(株)グリッドの共同設立者となり会社を立ち上げる。その後、東京大学　先端科学技術研究センターに研究の場所を移し、特任准教授として量子構造半導体デバイスの開発及びその理論計算、人工知能の研究を行う。2016年より電気通信大学の准教授および（株）GRIDの最高技術顧問を兼任。現在は、再生エネルギー最適化問題と人工知能のアルゴリズム開発、深層強化学習フレームワーク∞ReNomの開発に従事する。

受講料

48,600円 ( S&T会員受講料 46,170円 )
(まだS&T会員未登録の方は、申込みフォームの通信欄に「会員登録情報希望」と記入してください。詳しい情報を送付します。ご登録いただくと、今回から会員受講料が適用可能です。)

S&T会員なら、2名同時申込みで1名分無料
2名で48,600円 (2名ともS&T会員登録必須／１名あたり定価半額24,300円)

【1名分無料適用条件】
※2名様ともS&T会員登録が必須です。
※同一法人内(グループ会社でも可)による2名同時申込みのみ適用いたします。
※3名様以上のお申込みの場合、１名あたり定価半額で追加受講できます。
※受講券、請求書は、代表者に郵送いたします。
※請求書および領収証は1名様ごとに発行可能です。
　(申込みフォームの通信欄に「請求書１名ごと発行」と記入ください。)
※他の割引は併用できません。

セミナー趣旨

　AlphaGoがプロ棋士を破った2016年以降、さまざまな分野から注目されている深層強化学習ですが、専門書は非常に難解でわかりづらい傾向にあります。
　そこで本セミナーは、初歩的な数学を使って原理をわかりやすく解説します。価値・探索・マルコフ決定過程・動的計画法・モンテカルロ法・TD法といった強化学習の諸要素を、中高生にもなじみ深い平均値の計算から説明し、初学者でも基本とコツを自然と身につけられます。抽象的な強化学習の概念と煩雑な数学式を直感的に感じつつ、本質まで把握できることが本セミナーの最大の特徴です。
　また本セミナーと併行する書籍では、全例題にPythonとMATLABのコード付き。原理・数式・コードという一連の流れを紐付けて理解できるようになっています。初学者でも入りやすく、難しさを感じないまま、強化学習の基本と深層学習のコツを自然と身につけられるセミナーです。

セミナー講演内容

＜本セミナーの特徴＞
　難解な強化学習の原理を、中高生にもなじみ深い「平均値の計算」という観点からわかりやすく解説します。
　テキストとして使用する書籍「強化学習アルゴリズム入門」には、すべての例題にPythonとMATLABのコードが例示されています。セミナー受講とともに実際のコードを確認することでより理解が深まります。

＜プログラム＞
第1章　平均から学ぶ強化学習の基本概念
　1.0 はじめに
　1.1 平均と期待値
　　1.1.1 平均
　　1.1.2 期待値
　　1.1.3 期待値と平均の関係
　1.2 平均と価値
　1.3 平均とマルコフ性
　　1.3.1 平均の計算式とその変形
　　1.3.2 逐次平均表現とMP
　1.4 平均によるベルマン方程式の導出
　　1.4.1 平均表現と価値関数の導入
　　1.4.2 決定型Bellman方程式の導出
　　1.4.3 確率型Bellman方程式の導出
　1.5 平均によるモンテカルロ学習手法の導出
　　1.5.1 総報酬関数Gt+1の導入
　　1.5.2 総報酬GtとVtの比較
　　1.5.3 総報酬Gtの平均による価値関数vSt
　1.6 平均によるTD法の導出
　　1.6.1 TD(0)法の計算式の導出
　　1.6.2 TD(n)法の計算式の導出

第2章　各アルゴリズムの特徴と応用
　2.0 はじめに
　2.1 方策π(a | S)
　　2.1.1 多腕バンディット問題
　　2.1.2 ε-Greedy方策
　　2.1.3 UCB-1方策
　　2.1.4 Bayes sampling方策
　2.2 動的計画法
　　2.2.1 ε-Greedy(ε=1)反復方策
　　2.2.2 ε-Greedy(ε=0)方策反復法(On-Policy)
　　2.2.3 ε-Greedy(ε=0)価値反復法(Off-Policy)
　2.3 モンテカルロ法
　　2.3.1 固定開始点モンテカルロ法
　2.4 TD(0)法
　　2.4.1 方策反復方策からSARSA法の導出
　　2.4.2 TD(0)-SARSA法
　　2.4.3 価値反復方策からTD(0)-Q学習法の導出
　　2.4.4 完全Off-Policy のTD(0)-Q学習法
　　2.4.5 部分Off-Policy のTD(0)-Q学習法
　　2.4.6 Q学習法とSARSA法の比較

第3章　関数近似手法
　3.0 はじめに
　3.1 関数近似の基本概念
　3.2 関数近似モデルを用いたV(St)の表現
　3.3 機械学習による価値関数の回帰
　　3.3.1 誤差関数からわかる回帰と分類
　　3.3.2 誤差関数の設計と確率勾配降下法
　　3.3.3 強化学習における回帰解析の仕組み
　3.4 モンテカルロ法を応用した価値関数回帰
　3.5 Td(0)-SARSA法を適用した行動状態価値関数の回帰
　3.6 Td(0)-Q法を応用した行動状態価値関数の回帰

第4章深層強化学習の原理と手法
　4.1 TD-Q学習におけるNNによる行動価値関数回帰
　4.2 DQNによる行動状態価値関数近似
　4.3 確率方策勾配法
　　4.3.1 モンテカルロ離散方策勾配法
　　4.3.2 ベースラインモンテカルロ離散方策勾配法
　　4.3.3 離散型Actor-Critic法
　　4.3.4 連続型Actor-Critic法
　4.4 決定型方策勾配法
　　4.4.1 DDPG
　　4.4.2 ハイブリッドDDPG
　4.5 TRPO/PPO法
　　4.5.1 EMアルゴリズム
　　4.5.2 信頼領域(trust region)と自然勾配
　　4.5.3 信頼領域方策勾配法TRPO
　4.6 まとめと展開　

□ 質疑応答・名刺交換 □

※セミナーに申し込むにはものづくりドットコム会員登録が必要です

開催日時

2019/06/24（月）
10:30 ～ 16:30　
締めきりました

受講料

48,600円（税込）/人

※本文中に提示された主催者の割引は申込後に適用されます

※銀行振込または、当日現金でのお支払い

開催場所

東京都

MAP

【大田区】大田区産業プラザ（PiO）

【京急】京急蒲田駅

主催者

サイエンス＆テクノロジー株式会社

キーワード

機械学習・ディープラーニング

このセミナーについて質問する

※セミナーに申し込むにはものづくりドットコム会員登録が必要です

開催日時

2019/06/24（月）
10:30 ～ 16:30　
締めきりました

受講料

48,600円（税込）/人

※本文中に提示された主催者の割引は申込後に適用されます

※銀行振込または、当日現金でのお支払い

開催場所

東京都

MAP

【大田区】大田区産業プラザ（PiO）

【京急】京急蒲田駅

主催者

サイエンス＆テクノロジー株式会社

キーワード

機械学習・ディープラーニング

このセミナーについて質問する

シリカとタイヤ、添加剤ホワイトカーボンとは、わかりやすく解説
- 解説記事
【目次】 1. タイヤとシリカタイヤは、自動車はもとより自転車、バイク、飛行機、鉄道にも使われていて、みなさんの生活には無くては...
新規事業創出、カスタマイズされたコンサルティングで目指す成功への道
- 解説記事
◆ 新規事業の生み出し方新規事業のコンサルティングサービスは、大手コンサルティング会社のものとは異なり、そ...
多重度因子、かたより因子:金属材料基礎講座(その135)
- 解説記事
【目次】 1. 多重度因子回折が例えば(100)で起こる時、同じ面間隔を持つ(010)、(001)などの面も同様に回折を起こしま...
情報の関係性を意識した話し方とは、学習効果を最大化する伝え方
- 解説記事
【目次】 1. 学習効果を最大化する伝え方とにかくつまらない。話がダラダラ続く。テキストに書いてあることを読み続ける...

Pythonではじめる機械学習入門講座

ベイズ統計から学ぶ統計的機械学習

小規模データに対する機械学習の効果的適用法

機械学習を用いた画像認識技術の基礎とその応用

■AI活用人材育成講座■『機械学習（ディープラーニング）の基礎・活用・実践<全3回>』

機械学習によるデータ分析の基礎知識と勘所

■AI活用人材育成講座<第1回>■『Python基礎と機械学習基礎』

AIプログラミングができない要素技術者自身で開発できる人工知能技術～深層学習とMTシステムの基礎・学習データ最小化・開発実務応用入門～【AI構築デモ付き（希望者にAI構築・計算方法Excel資料提供）】

強化学習アルゴリズム入門～「平均」からはじめる基礎と応用～

＜深層強化学習の基本・最新アルゴリズムと応用＞

「強化学習」「深層学習」「深層強化学習」の
基本原理と応用、そして最先端最適化技術へ

応用できる、実務に活かせる目線で、
重要ポイントを理解・習得する講座！

深層学習のさらに先にある、『深層強化学習手法』とは！？

セミナー講師

受講料

セミナー趣旨

セミナー講演内容

Pythonではじめる機械学習入門講座

ベイズ統計から学ぶ統計的機械学習

小規模データに対する機械学習の効果的適用法

機械学習を用いた画像認識技術の基礎とその応用

品質問題をなくす設計と設計審査の考え方　”ＦＭＥＡ辞書”

徹底的に成功事例に学ぶ！「５Ｓの導入と強化」

「５Ｓ」の効果的活用と継続方法

新ビジネス・新商品開発　目からウロコのアイディア発想法　～異分野こそアイディアの宝庫～

品質問題の未然防止は難しくない！－品質工学の基本的な考え方－

ＱＦＤセミナー（基礎編）－その原点を考える

シリカとタイヤ、添加剤ホワイトカーボンとは、わかりやすく解説

新規事業創出、カスタマイズされたコンサルティングで目指す成功への道

多重度因子、かたより因子:金属材料基礎講座(その135)

情報の関係性を意識した話し方とは、学習効果を最大化する伝え方

ものづくりセミナーサーチ

日本最大級の技術・生産セミナーポータルサイト

Pythonではじめる機械学習入門講座

ベイズ統計から学ぶ統計的機械学習

小規模データに対する機械学習の効果的適用法

機械学習を用いた画像認識技術の基礎とその応用

■AI活用人材育成講座■『機械学習（ディープラーニング）の基礎・活用・実践<全3回>』

機械学習によるデータ分析の基礎知識と勘所

■AI活用人材育成講座<第1回>■『Python基礎と機械学習基礎』

AIプログラミングができない要素技術者自身で開発できる人工知能技術 ～深層学習とMTシステムの基礎・学習データ最小化・開発実務応用入門～【AI構築デモ付き（希望者にAI構築・計算方法Excel資料提供）】

強化学習アルゴリズム入門 ～「平均」からはじめる基礎と応用～

＜深層強化学習の基本・最新アルゴリズムと応用＞「強化学習」「深層学習」「深層強化学習」の 基本原理と応用、そして最先端最適化技術へ

応用できる、実務に活かせる目線で、 重要ポイントを理解・習得する講座！ 深層学習のさらに先にある、『深層強化学習手法』とは！？

セミナー講師

受講料

セミナー趣旨

セミナー講演内容

関連セミナー

Pythonではじめる機械学習入門講座

ベイズ統計から学ぶ統計的機械学習

小規模データに対する機械学習の効果的適用法

機械学習を用いた画像認識技術の基礎とその応用

関連教材

品質問題をなくす設計と設計審査の考え方 ”ＦＭＥＡ辞書”

徹底的に成功事例に学ぶ！「５Ｓの導入と強化」

「５Ｓ」の効果的活用と継続方法

新ビジネス・新商品開発 目からウロコのアイディア発想法 ～異分野こそアイディアの宝庫～

品質問題の未然防止は難しくない！－品質工学の基本的な考え方－

ＱＦＤセミナー（基礎編）－その原点を考える

関連記事

シリカとタイヤ、添加剤ホワイトカーボンとは、わかりやすく解説

新規事業創出、カスタマイズされたコンサルティングで目指す成功への道

多重度因子、かたより因子:金属材料基礎講座(その135)

情報の関係性を意識した話し方とは、学習効果を最大化する伝え方

ものづくりセミナーサーチ

日本最大級の技術・生産セミナーポータルサイト

AIプログラミングができない要素技術者自身で開発できる人工知能技術～深層学習とMTシステムの基礎・学習データ最小化・開発実務応用入門～【AI構築デモ付き（希望者にAI構築・計算方法Excel資料提供）】

強化学習アルゴリズム入門～「平均」からはじめる基礎と応用～

＜深層強化学習の基本・最新アルゴリズムと応用＞

「強化学習」「深層学習」「深層強化学習」の
基本原理と応用、そして最先端最適化技術へ

応用できる、実務に活かせる目線で、
重要ポイントを理解・習得する講座！

深層学習のさらに先にある、『深層強化学習手法』とは！？

品質問題をなくす設計と設計審査の考え方　”ＦＭＥＡ辞書”

新ビジネス・新商品開発　目からウロコのアイディア発想法　～異分野こそアイディアの宝庫～