強化学習の基礎と実践 【PC実習付】
開催日 |
10:30 ~ 16:30 締めきりました |
---|---|
主催者 | (株)R&D支援センター |
キーワード | 機械学習・ディープラーニング AI(人工知能) |
開催エリア | 東京都 |
開催場所 | 【江東区】江東区産業会館 |
交通 | 【地下鉄】東陽町駅 |
強化学習の基礎から最新の研究動向、応用事例解を解説し、
「OpenAI gym」 を用いた実習を行います!
セミナー講師
中部大学 生命健康科学部臨床工学科 兼 工学部情報工学科 准教授 博士(工学) 松井 藤五郎 氏
【ご専門】人工知能、データ解析、機械学習、強化学習
セミナー受講料
55,000円(税込、昼食・資料付)
■ セミナー主催者からの会員登録をしていただいた場合、1名で申込の場合49,500円、
2名同時申込の場合計55,000円(2人目無料:1名あたり27,500円)で受講できます。
備考欄に「会員登録希望」と希望の案内方法【メールまたは郵送】を記入ください。
(セミナーのお申し込みと同時に会員登録をさせていただきますので、
今回の受講料から会員価格を適用いたします。)
※ 2019年10月1日以降に開催されるセミナーの受講料は、お申込みいただく時期に関わらず
消費税が10%になります。
※ 会員登録とは
ご登録いただきますと、セミナーや書籍などの商品をご案内させていただきます。
すべて無料で年会費・更新料・登録費は一切掛かりません。
セミナー趣旨
2016年、Googleが買収したDeepMind社が開発したコンピューター囲碁プログラムAlpha Goが囲碁の世界チャンピオンに勝利して話題となった。このAlpha Goの学習に用いられていたのが深層学習(ディープ・ラーニング)と強化学習を組み合わせたDeep Q-Network (DQN)である。
本セミナーでは、強化学習の基礎理論と基本アルゴリズムについて解説し、LEGOロボットを用いたデモ、最近の研究動向、最新の応用事例を紹介し、強化学習ライブラリーのOpenAI gymを用いた実習を行う。
受講対象・レベル
強化学習に関心がある方
強化学習の導入にお困りの方
必要な予備知識
特に予備知識は必要ありません。基礎から解説いたします
習得できる知識
強化学習の基礎理論と基本アルゴリズムを理解し、実際に強化学習を試してみることができるようになる。
セミナープログラム
1.はじめに
1-1 強化学習研究の歴史
1-2 強化学習研究の動向
1-3 デモ(迷路)
2.強化学習の基礎
2-1 強化学習の枠組み
2-2 マルコフ決定過程 (MDPs)
2-3 決定的環境と確率的環境
2-4 エージェントの目的
2-5 行動価値
2-6 学習エージェントの行動選択法
2-6-1 一様ランダム選択
2-6-2 グリーディー選択
2-6-3 ε-グリーディー選択
2-6-4 ソフトマックス選択
2-7 探査と知識利用のジレンマ
3.基本的な強化学習アルゴリズム
3-1 行動価値推定型
3-1-1 Q学習
3-1-2 Sarsa
3-2 方策最適化型
3-2-1 Policy Gradient
3-3 行動価値推定型
3-3-1 Profit Sharing (PS)
3-3-2 OnPS
4.強化学習パラメーターのチューニング
4-1 状態のチューニング
4-2 行動のチューニング
4-3 報酬関数のチューニング
4-4 割引率のチューニング
4-5 ステップあたりの時間のチューニング
4-6 ステップサイズのチューニング
4-7 ε-グリーディー選択におけるεのチューニング
4-8 ソフトマックス選択における温度のチューニング
4-9 行動価値の初期値のチューニング
5.実環境への応用する際の課題
5-1 マルチエージェント強化学習
5-2 関数近似
5-3 部分観測マルコフ決定過程 (POMDPs)
6.最新の強化学習
6-1 多目的強化学習
6-2 逆強化学習
6-3 安全な強化学習
6-4 マルコフ決定過程簡約化
6-5 複利型強化学習
6-6 深層強化学
6-6-1 Deep Q-Network (DQN)
6-6-2 A3C
6-6-3 TRPO
6-6-4 PPO
7.OpenAI gym実習
7-1 OpenAIとgym
7-2 環境構築
7-3 サンプルプログラムの実行
8.応用事例
8-1 複利型強化学習の応用事例
8-1-1 国債銘柄選択
8-1-2 ブラックジャック
8-1-3 株取引
8-1-4 日本国債取引
8-2 深層強化学習の応用事例
8-2-1 ロボットアーム
8-2-2 自動運転車
8-2-3 ドローン
9.まとめ
【質疑応答・名刺交換】