逆強化学習の基礎、手法選択と応用

逆強化学習ではどのように問題を設定すればよいのか？　
経験則的な内容のモデル化方法は？

セミナープログラム

第１部　逆強化学習の基礎知識
　1-1 マルコフ決定過程
　　1-1-1 平均とマルコフ性(MP)
　　1-1-2 逐次平均表現とMP
　　1-1-3 マルコフ報酬過程
　　1-1-4 マルコフ決定過程
　1-2 Bellman方程式の導出
　　1-2-1 平均から決定型Bellman方程式の導入
　　1-2-2 平均表現と価値関数の導入
　　1-2-3 確率型Bellman方程式の導出
　　　1-2-3-1 行動状態価値関数の導入
　　　1-2-3-2 確率型ベルマン方程式の導出
　　　1-2-3-3 遷移確率関数 T (r ( S') , S'│s,a )の極意
　　　1-2-3-4 グリッドワード問題の応用
　1-3 動的計画法
　　1-3-1 ε = 1 - Greedy反復方策
　　1-3-2 ε = 0 - Greedy方策反復法(On-Policy)
　　1-3-3 ε = 0 - Greedy価値反復法(Off-Policy)
　1-4 逆強化学習の基本概念の導入
　　1-4-1 報酬関数の定義
　　1-4-2 報酬関数による価値関数の推定

第２部　逆強化学習の解法：線形計画最適化逆強化学習手法
　2-1 線形計画最適化逆強化学習手法の導入
　2-2 線形計画逆強化学習手法の定式化
　2-3 線形計画逆強化学習手法のコーディング要領
　2-4 線形計画逆強化学習手法の応用事例の紹介

第３部　逆強化学習の解法：最大エントロピー逆強化学習手法
　3-1 関数近似の基本概念
　3-2 関数近似モデルを用いた報酬の表現
　3-3 機械学習による報酬関数の回帰
　3-4 最大エントロピーを取り入れた報酬誤差関数の設計
　3-5 熟練者による行動確率教師データの生成
　3-6 最大エントロピー逆強化学習手法のコーディング要領
　3-7 最大エントロピー逆強化学習手法の応用事例の紹介

第４部　逆強化学習の解法：深層NN最大エントロピー逆強化学習手法
　4-1 深層NN(neural network)の導入
　4-2 深層NN最大エントロピーを取り入れた報酬誤差関数の設計
　4-3 熟練者による状態頻度教師データの生成
　4-4 深層NN最大エントロピー逆強化学習手法のコーディング要領
　4-5 深層NN最大エントロピー逆強化学習手法の応用事例の紹介

第５部　逆強化学習の展望と関連技術の紹介

【質疑応答】

セミナー講師

電気通信大学 i-パワードエネルギーシステム研究センター、基盤理工学専攻　准教授、(株)GRID　最高技術顧問　理学博士　曽我部東馬氏

セミナー受講料

1名につき50，000円（消費税抜き・昼食・資料付き）
〔1社2名以上同時申込の場合1名につき45，000円（税抜）〕

※セミナーに申し込むにはものづくりドットコム会員登録が必要です

開催日時

2020/01/20（月）
10:00 ～ 17:00　
締めきりました

受講料

55,000円（税込）/人

※本文中に提示された主催者の割引は申込後に適用されます

※銀行振込、会場での支払い

開催場所

東京都

MAP

【品川区】技術情報協会セミナールーム

【JR・地下鉄】五反田駅【東急】大崎広小路駅

主催者

株式会社技術情報協会

キーワード

機械学習・ディープラーニング

このセミナーについて質問する

※セミナーに申し込むにはものづくりドットコム会員登録が必要です

開催日時

2020/01/20（月）
10:00 ～ 17:00　
締めきりました

受講料

55,000円（税込）/人

※本文中に提示された主催者の割引は申込後に適用されます

※銀行振込、会場での支払い

開催場所

東京都

MAP

【品川区】技術情報協会セミナールーム

【JR・地下鉄】五反田駅【東急】大崎広小路駅

主催者

株式会社技術情報協会

キーワード

機械学習・ディープラーニング

このセミナーについて質問する

自動化、ＤＸ化で注意すべき点、原理原則の理解とは
- 解説記事
自動作成ソフトや、DX技術の進化により、業務の効率化や工数削減が進んでいます。しかし全てを自動化し、人の判断や知識を排除することには疑...
プロダクト・データサイエンス：データ分析講座（その323）3つのDS
- 解説記事
企業内のデータサイエンス組織の1つの役割として、データサイエンス技術を、より良い商品の開発やより良いCX（カスタマー・エクスペリエンス...
【快年童子の豆鉄砲】（その１２８）定年熟練者の採用体制
- 解説記事
【目次】 1. はじめに中小企業が抱える喫緊の課題の最後は「熟練社員退職で技術知識の喪失」に対する解決手段です。一般的には、定年...
XRDの相対強度、構造因子:金属材料基礎講座(その132)
- 解説記事
【目次】 1. XRDの相対強度 XRDにおいて回折パターンの相対強度におよぼす影響は、次の6項目があります。 ...

機械学習を用いた画像認識技術の基礎とその応用

■AI活用人材育成講座■『機械学習（ディープラーニング）の基礎・活用・実践<全3回>』

ベイズ統計から学ぶ統計的機械学習

Pythonではじめる機械学習入門講座

小規模データに対する機械学習の効果的適用法

機械学習によるデータ分析の基礎知識と勘所

■AI活用人材育成講座<第1回>■『Python基礎と機械学習基礎』

ガラスの機械特性と化学強化

逆強化学習の基礎、手法選択と応用

逆強化学習ではどのように問題を設定すればよいのか？　
経験則的な内容のモデル化方法は？

セミナープログラム

セミナー講師

セミナー受講料

機械学習を用いた画像認識技術の基礎とその応用

■AI活用人材育成講座■『機械学習（ディープラーニング）の基礎・活用・実践<全3回>』

ベイズ統計から学ぶ統計的機械学習

Pythonではじめる機械学習入門講座

品質問題をなくす設計と設計審査の考え方　”ＦＭＥＡ辞書”

徹底的に成功事例に学ぶ！「５Ｓの導入と強化」

「５Ｓ」の効果的活用と継続方法

新ビジネス・新商品開発　目からウロコのアイディア発想法　～異分野こそアイディアの宝庫～

品質問題の未然防止は難しくない！－品質工学の基本的な考え方－

ＱＦＤセミナー（基礎編）－その原点を考える

自動化、ＤＸ化で注意すべき点、原理原則の理解とは

プロダクト・データサイエンス：データ分析講座（その323）3つのDS

【快年童子の豆鉄砲】（その１２８）定年熟練者の採用体制

XRDの相対強度、構造因子:金属材料基礎講座(その132)

ものづくりセミナーサーチ

日本最大級の技術・生産セミナーポータルサイト

機械学習を用いた画像認識技術の基礎とその応用

■AI活用人材育成講座■『機械学習（ディープラーニング）の基礎・活用・実践<全3回>』

ベイズ統計から学ぶ統計的機械学習

Pythonではじめる機械学習入門講座

小規模データに対する機械学習の効果的適用法

機械学習によるデータ分析の基礎知識と勘所

■AI活用人材育成講座<第1回>■『Python基礎と機械学習基礎』

ガラスの機械特性と化学強化

逆強化学習の基礎、手法選択と応用

逆強化学習ではどのように問題を設定すればよいのか？ 経験則的な内容のモデル化方法は？

セミナープログラム

セミナー講師

セミナー受講料

関連セミナー

機械学習を用いた画像認識技術の基礎とその応用

■AI活用人材育成講座■『機械学習（ディープラーニング）の基礎・活用・実践<全3回>』

ベイズ統計から学ぶ統計的機械学習

Pythonではじめる機械学習入門講座

関連教材

品質問題をなくす設計と設計審査の考え方 ”ＦＭＥＡ辞書”

徹底的に成功事例に学ぶ！「５Ｓの導入と強化」

「５Ｓ」の効果的活用と継続方法

新ビジネス・新商品開発 目からウロコのアイディア発想法 ～異分野こそアイディアの宝庫～

品質問題の未然防止は難しくない！－品質工学の基本的な考え方－

ＱＦＤセミナー（基礎編）－その原点を考える

関連記事

自動化、ＤＸ化で注意すべき点、原理原則の理解とは

プロダクト・データサイエンス：データ分析講座（その323）3つのDS

【快年童子の豆鉄砲】（その１２８）定年熟練者の採用体制

XRDの相対強度、構造因子:金属材料基礎講座(その132)

ものづくりセミナーサーチ

日本最大級の技術・生産セミナーポータルサイト

逆強化学習ではどのように問題を設定すればよいのか？　
経験則的な内容のモデル化方法は？

品質問題をなくす設計と設計審査の考え方　”ＦＭＥＡ辞書”

新ビジネス・新商品開発　目からウロコのアイディア発想法　～異分野こそアイディアの宝庫～