~ 基本アルゴリズム等の理解から実環境への適用、応用事例まで ~


★ 機械学習の中でも注目を集める「強化学習」の基礎知識習得・パラメーターのチューニングから深層強化学習まで!

★ 最近の研究・応用動向をふまえ解説します!


講師


中部大学 生命健康科学部 臨床工学科 / 工学部 情報工学科
准教授 博士(工学) 松井 藤五郎 先生


受講料


1名41,040円(税込(消費税8%)、資料付)
*1社2名以上同時申込の場合 、1名につき30,240円
*学校法人割引 ;学生、教員のご参加は受講料50%割引。


セミナーポイント


 Googleの子会社のDeepMindが開発したコンピューター囲碁プログラムAlpha Goが囲碁の世界チャンピオンに勝利して話題となった。このAlpha Goの学習に用いられていたのがDeep Q-Network (DQN)と呼ばれる深層強化学習アルゴリズムである。
 本セミナーでは、強化学習の基礎的な知識を解説し、その実際のパラメーターのチューニング法から実環境への適用、深層強化学習等の最近の研究動向、最新の応用事例等について紹介する。

○受講対象:
 ・強化学習に関心がある方
 ・ロボット制御に携わっている方
 ・強化学習の導入にお困りの方
 など

○受講後、習得できること:
 ・強化学習の基礎知識
 ・強化学習の適用方法
 ・強化学習パラメーターのチューニング方法
 ・深層強化学習・ロボット制御等、最近の研究・応用動向 
など


セミナー内容


1.はじめに
 (ア) 強化学習研究の歴史
 (イ) 強化学習研究の最新動向

2.強化学習の基礎
 (ア) 強化学習の枠組み
  ① 学習エージェント
  ② 環境
  ③ エージェントと環境の相互作用
 (イ) 強化学習の環境
  ① マルコフ決定過程 (MDPs)
  ② 決定的環境
  ③ 確率的環境
  ④ 例:n本腕バンディット問題
  ⑤ 例:迷路問題
 (ウ) 学習エージェントの行動選択法
  ① 一様ランダム選択
  ② グリーディー選択
  ③ ε-グリーディー選択
  ④ ソフトマックス選択

3.基本的な強化学習アルゴリズム
 (ア) Q学習
 (イ) Sarsa
 (ウ) Profit Sharing (PS)
 (エ) OnPS

4.強化学習パラメーターのチューニング
 (ア) ステップサイズα
 (イ) 割引率γ
 (ウ) ε-グリーディー選択のε
 (エ) ソフトマックス選択の温度T

5.実環境への応用
 (ア) 関数近似:連続値で表される状態
 (イ) 例題:車の山登り問題
 (ウ) 部分観測マルコフ決定過程 (POMDPs)
 (エ) マルチエージェント強化学習
 (オ) どの手法を選択・適用したら良いか?その考え方

6.最新の強化学習
 (ア) 複利型強化学習:金融市場で用いる強化学習
  ① 例:マネーホイール選択問題
  ② 利益率の複利効果
  ③ 投資比率
  ④ 複利型Q学習
  ⑤ 投資比率の最適化
 (イ) 深層強化学習:最強のコンピューター囲碁プログラムで用いられた学習
  ① 深層学習(ディープラーニング)
  ② Deep Q-Network (DQN)アルゴリズム
  ③ 深層強化学習のポイント
 (ウ) 多目的強化学習:複数の目的を同時に最適化
 (エ) 安全な強化学習:失敗できない環境での学習

7.応用事例
 (ア) ロボットの制御
  ① センサー情報(状態)とモーター制御(行動)
  ② ロボットの危険回避行動
  ③ LEGOロボット制御の実例
 (イ) ブラックジャック
 (ウ) 株(国債、外国為替)の銘柄選択、株(国債)の自動取引
 (エ) その他、考えられる応用分野

8.まとめ


 <質疑応答>

*小項目については変更する可能性があります。


※セミナーに申し込むにはものづくりドットコム会員登録が必要です

開催日時


12:30

受講料

41,040円(税込)/人

※本文中に提示された主催者の割引は申込後に適用されます

※銀行振込

開催場所

東京都

MAP

【北区】北とぴあ

【JR・地下鉄】王子駅 【都電】王子駅前

主催者

キーワード

機械学習・ディープラーニング

※セミナーに申し込むにはものづくりドットコム会員登録が必要です

開催日時


12:30

受講料

41,040円(税込)/人

※本文中に提示された主催者の割引は申込後に適用されます

※銀行振込

開催場所

東京都

MAP

【北区】北とぴあ

【JR・地下鉄】王子駅 【都電】王子駅前

主催者

キーワード

機械学習・ディープラーニング

関連記事

もっと見る