強(qiáng)化學(xué)習(xí)與深度強(qiáng)化學(xué)習(xí)

主講老師：葉梓

課程詳情：

【課程時(shí)長(zhǎng)】

3天（6小時(shí)/天）

【課程簡(jiǎn)介】

強(qiáng)化學(xué)習(xí)是當(dāng)前最熱門(mén)的研究方向之一，廣泛應(yīng)用于機(jī)器人學(xué)、電子競(jìng)技等領(lǐng)域。本課程系統(tǒng)性的介紹了強(qiáng)化學(xué)習(xí)（深度強(qiáng)化學(xué)習(xí)）的基本理論和關(guān)鍵算法，包括：馬爾科夫決策過(guò)程、動(dòng)態(tài)規(guī)劃法、蒙特卡羅法、時(shí)間差分法、值函數(shù)逼近法，策略梯度法等；以及該領(lǐng)域的最新前沿發(fā)展，包括：DQN及其變種、信賴域系方法、Actor-Critic類方法、多Agent深度強(qiáng)化學(xué)習(xí)等；同時(shí)也介紹大量的實(shí)際案例，包括深度強(qiáng)化學(xué)習(xí)中最著名的工程應(yīng)用：Alpha Go。

【課程對(duì)象】

計(jì)算機(jī)相關(guān)專業(yè)本科；或理工科本科，具備初步的IT基礎(chǔ)知識(shí)的人員

第一天強(qiáng)化學(xué)習(xí)

第一課強(qiáng)化學(xué)習(xí)綜述

1.強(qiáng)化學(xué)習(xí)要解決的問(wèn)題

2.強(qiáng)化學(xué)習(xí)方法的分類

3.強(qiáng)化學(xué)習(xí)方法的發(fā)展趨勢(shì)

4.環(huán)境搭建實(shí)驗(yàn)（Gym，TensorFlow等）

5.Gym環(huán)境的基本使用方法

第二課馬爾科夫決策過(guò)程

1.基本概念：馬爾科夫性、馬爾科夫過(guò)程、馬爾科夫決策過(guò)程

2.MDP基本元素:策略、回報(bào)、值函數(shù)、狀態(tài)行為值函數(shù)

3.貝爾曼方程

4.最優(yōu)策略

案例：構(gòu)建機(jī)器人找金幣和迷宮的環(huán)境

第三課基于模型的動(dòng)態(tài)規(guī)劃方法

1.動(dòng)態(tài)規(guī)劃概念介紹

2.策略評(píng)估過(guò)程介紹

3.策略改進(jìn)方法介紹

4.策略迭代和值迭代

案例：實(shí)現(xiàn)基于模型的強(qiáng)化學(xué)習(xí)算法

第四課蒙特卡羅方法

1.蒙特卡羅策略評(píng)估

2.蒙特卡羅策略改進(jìn)

3.基于蒙特卡羅的強(qiáng)化學(xué)習(xí)

4.同策略和異策略

案例：利用蒙特卡羅方法實(shí)現(xiàn)機(jī)器人找金幣和迷宮

第五課時(shí)序差分方法

1.DP，MC和TD方法比較

2.MC和TD方法偏差與方差平衡

3.同策略TD方法：Sarsa 方法

4.異策略TD方法：Q-learning 方法

案例：Q-learning和Sarsa的實(shí)現(xiàn)

第二天從強(qiáng)化學(xué)習(xí)到深度強(qiáng)化學(xué)習(xí)

第一課基于值函數(shù)逼近方法（強(qiáng)化學(xué)習(xí)）

1.維數(shù)災(zāi)難與表格型強(qiáng)化學(xué)習(xí)

2.值函數(shù)的參數(shù)化表示

3.值函數(shù)的估計(jì)過(guò)程

4.常用的基函數(shù)

第二課基于值函數(shù)逼近方法（深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的結(jié)合）

1.簡(jiǎn)單提一下深度學(xué)習(xí)

2.深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的結(jié)合

3.DQN 方法介紹

4.DQN變種：Double DQN, Prioritized Replay, Dueling Network

案例：用DQN玩游戲——flappy bird

第三課策略梯度方法（強(qiáng)化學(xué)習(xí)）

1.策略梯度方法介紹

2.常見(jiàn)的策略表示

3.常見(jiàn)的減小方差的方法:引入基函數(shù)法，修改估計(jì)值函數(shù)法

案例：利用gym和tensorflow實(shí)現(xiàn)小車倒立擺系統(tǒng)等

第四課 Alpha Go（深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的結(jié)合）

1.MCTS

2.策略網(wǎng)絡(luò)與價(jià)值網(wǎng)絡(luò)

3.Alpha Go的完整架構(gòu)

第五課 GAN（深度學(xué)習(xí)）

1.VAE與基本GAN

2.DCGAN

3.WGAN

案例：生成手寫(xiě)數(shù)字的GAN

第三天深度強(qiáng)化學(xué)習(xí)進(jìn)階

第一課 AC類方法-1

1. PG的問(wèn)題與AC的思路

2. AC類方法的發(fā)展歷程

3. Actor-Critic基本原理

第二課 AC類方法-2

1. DPG方法

2. DDPG方法

3. A3C方法

案例：AC類方法的案例

第三課信賴域系方法-1

1.信賴域系方法背景

2.信賴域系方法發(fā)展路線圖

3.TRPO方法

案例：TRPO方法的案例

第四課信賴域系方法-2

1.PPO方法

2.DPPO方法簡(jiǎn)介

3.ACER方法

案例：PPO方法的案例

第五課多Agent強(qiáng)化學(xué)習(xí)

1.矩陣博弈

2.納什均衡

3.多人隨機(jī)博弈學(xué)習(xí)

4.完全合作、完全競(jìng)爭(zhēng)與混合任務(wù)

5.MADDPG

案例：MADDPG的案例等

其他課程

強(qiáng)化學(xué)習(xí): 培訓(xùn)課程

數(shù)據(jù)分析與數(shù)據(jù)挖掘: 培訓(xùn)課程

人工智能之最新自然語(yǔ)言處理技術(shù)與實(shí)戰(zhàn): 培訓(xùn)課程

人工智能與深度學(xué)習(xí): 培訓(xùn)課程

人工智能自然語(yǔ)言處理: 培訓(xùn)課程

授課見(jiàn)證

葉梓還沒(méi)有發(fā)布授課見(jiàn)證

推薦講師

馬成功

Office超級(jí)實(shí)戰(zhàn)派講師,國(guó)內(nèi)IPO排版第一人

講師課酬：面議

常駐城市：北京市

學(xué)員評(píng)價(jià)：

賈倩

注冊(cè)形象設(shè)計(jì)師,國(guó)家二級(jí)企業(yè)培訓(xùn)師,國(guó)家二級(jí)人力資源管理師

講師課酬：面議

常駐城市：深圳市

學(xué)員評(píng)價(jià)：

鄭惠芳

人力資源專家

講師課酬：面議

常駐城市：上海市

學(xué)員評(píng)價(jià)：

晏世樂(lè)

資深培訓(xùn)師,職業(yè)演說(shuō)家,專業(yè)咨詢顧問(wèn)

講師課酬：面議

常駐城市：深圳市

學(xué)員評(píng)價(jià)：

文小林

實(shí)戰(zhàn)人才培養(yǎng)應(yīng)用專家

講師課酬：面議

常駐城市：深圳市

學(xué)員評(píng)價(jià)：