強化学習の基礎と実践
開催日 |
12:30 ~ 16:30 締めきりました |
---|---|
主催者 | 株式会社 情報機構 |
キーワード | 機械学習・ディープラーニング |
開催エリア | 東京都 |
開催場所 | 【北区】北とぴあ |
交通 | 【JR・地下鉄】王子駅 【都電】王子駅前 |
~ 基本アルゴリズム等の理解から実環境への適用、応用事例まで ~
★ 機械学習の中でも注目を集める「強化学習」の基礎知識習得・パラメーターのチューニングから深層強化学習まで!
★ 最近の研究・応用動向をふまえ解説します!
講師
中部大学 生命健康科学部 臨床工学科 / 工学部 情報工学科
准教授 博士(工学) 松井 藤五郎 先生
受講料
1名41,040円(税込(消費税8%)、資料付)
*1社2名以上同時申込の場合 、1名につき30,240円
*学校法人割引 ;学生、教員のご参加は受講料50%割引。
セミナーポイント
Googleの子会社のDeepMindが開発したコンピューター囲碁プログラムAlpha Goが囲碁の世界チャンピオンに勝利して話題となった。このAlpha Goの学習に用いられていたのがDeep Q-Network (DQN)と呼ばれる深層強化学習アルゴリズムである。
本セミナーでは、強化学習の基礎的な知識を解説し、その実際のパラメーターのチューニング法から実環境への適用、深層強化学習等の最近の研究動向、最新の応用事例等について紹介する。
○受講対象:
・強化学習に関心がある方
・ロボット制御に携わっている方
・強化学習の導入にお困りの方
など
○受講後、習得できること:
・強化学習の基礎知識
・強化学習の適用方法
・強化学習パラメーターのチューニング方法
・深層強化学習・ロボット制御等、最近の研究・応用動向
など
セミナー内容
1.はじめに
(ア) 強化学習研究の歴史
(イ) 強化学習研究の最新動向
2.強化学習の基礎
(ア) 強化学習の枠組み
① 学習エージェント
② 環境
③ エージェントと環境の相互作用
(イ) 強化学習の環境
① マルコフ決定過程 (MDPs)
② 決定的環境
③ 確率的環境
④ 例:n本腕バンディット問題
⑤ 例:迷路問題
(ウ) 学習エージェントの行動選択法
① 一様ランダム選択
② グリーディー選択
③ ε-グリーディー選択
④ ソフトマックス選択
3.基本的な強化学習アルゴリズム
(ア) Q学習
(イ) Sarsa
(ウ) Profit Sharing (PS)
(エ) OnPS
4.強化学習パラメーターのチューニング
(ア) ステップサイズα
(イ) 割引率γ
(ウ) ε-グリーディー選択のε
(エ) ソフトマックス選択の温度T
5.実環境への応用
(ア) 関数近似:連続値で表される状態
(イ) 例題:車の山登り問題
(ウ) 部分観測マルコフ決定過程 (POMDPs)
(エ) マルチエージェント強化学習
(オ) どの手法を選択・適用したら良いか?その考え方
6.最新の強化学習
(ア) 複利型強化学習:金融市場で用いる強化学習
① 例:マネーホイール選択問題
② 利益率の複利効果
③ 投資比率
④ 複利型Q学習
⑤ 投資比率の最適化
(イ) 深層強化学習:最強のコンピューター囲碁プログラムで用いられた学習
① 深層学習(ディープラーニング)
② Deep Q-Network (DQN)アルゴリズム
③ 深層強化学習のポイント
(ウ) 多目的強化学習:複数の目的を同時に最適化
(エ) 安全な強化学習:失敗できない環境での学習
7.応用事例
(ア) ロボットの制御
① センサー情報(状態)とモーター制御(行動)
② ロボットの危険回避行動
③ LEGOロボット制御の実例
(イ) ブラックジャック
(ウ) 株(国債、外国為替)の銘柄選択、株(国債)の自動取引
(エ) その他、考えられる応用分野
8.まとめ
<質疑応答>
*小項目については変更する可能性があります。