報名 | 國慶深度強化學習實戰特訓營

 2017-09-22 13:26:00.0

原標題:報名 | 國慶深度強化學習實戰特訓營

人工智能有望在工業、技術和數字革命層面帶來前所未有的社會變革。能夠進行感測、歸因和操作的機器將加快衆多領域內大規模問題的解決,這些領域包括科學、金融、醫學和教育,進而增強人類的能力,並幫助我們實現更遠、更快的發展。受到摩爾定律和海量數據的推動,人工智能成爲了當今衆多技術創新的核心。

強化學習,是目前DeepMind的主攻方向,被DeepMind的科學家認爲是通往通用智能(General AI)的必經之路。

普林斯頓大學助理教授王夢迪認爲強化學習是人工智能的未來。

當強化學習與深度學習結合,深度強化學習技術,鑄就了圍棋上帝AlphaGO,幫助OpenAI在Dota比賽中碾壓人類頂級玩家。強化學習在金融、遊戲AI、機器人等領域有着廣闊的應用前景。掌握深度強化學習技術的工程師,騰訊、網易的遊戲AI部門、以及大型金融機構的急缺人才,在其職業發展道路中,無疑先人一步。

第一期線下課程現場

探靈教育科技在8月、9月已經成功舉辦兩期強化學習入門進階培訓課程,受到學員一致好評。服務的學員來自卡內基梅隆大學(CMU)、中國科學院、微軟亞洲研究院、北京郵電大學、解放軍理工大學、海軍航空工程學院、軍事醫學科學院、中國電子科技集團、北京交通大學、思科、口袋科技、途牛等多家院校和企業。根據學員的反饋以及我們最新的教研成果,我們進一步對課程進行了升級、完善。國慶期間,特別推出爲期五天的強化學習特訓營活動,通過五天的理論講解以及編程實戰,幫助大家全面、系統的瞭解、掌握強化學習技術。

面向對象

強化學習的小白、初學者、自己已有一定基礎但是沒有建立系統知識體系的以及其他對於強化學習感興趣的人士。有一定的微積分、線性代數、概率論基礎,有python編程基礎。學員上課需要自帶電腦。

課程安排

第一天:授課老師 Traffas

1. 什麼是強化學習以及強化學習的方法彙總?

強化學習可以讓AlphaGo無需人類的指導,自己‘左右互搏’,就能悟到更佳出奇制勝的圍棋技巧;可以讓機器人的行動不再需要人類繁雜的編程,自己就可以適應所處的環境。爲什麼強化學習有如此神奇的功能?到底什麼是強化學習?本課將爲你娓娓道來....

2. 強化學習領域的基礎概念。

解鎖強化學習領域的術語。介紹增強學習可以解決的問題。介紹Bellman Equation原理,介紹RL和動態規劃的異同點。介紹傳統的tubular based RL。

3.介紹安裝Python2.7+Anconda+jupyter Notebook

4. 動手編寫第一個增強學習的python 程序(30分鐘),找到玩老虎機的最優策略。

5.基於蒙特卡羅強化學習介紹、同策略、異策略強化學習算法介紹。

6. 答疑、交流。

第二天 授課老師 Traffas

1、 強化學習算法實踐,基於強化學習玩21點遊戲以及grid world遊戲。

2、 強化學習時間差分算法。介紹同策略Q-learning強化學習方法以及異策略Sara算法。比較和蒙特卡洛算法異同點。介紹eligibility Tree以及TD(lamda)算法。

3、 Gym環境構建以及強化學習算法實現。包括Gym環境的安裝、測試,Gym環境關鍵函數講解以及如何創建自定義Gym環境。

4、 學員動手實踐

5、 老師答疑、交流。

第三天 授課老師 Traffas

1、DQN詳解

DQN是深度強化學習中的強大武器,Deep Mind團隊就是利用DQN技術使得計算機在Atari電子遊戲中的表現超過了人類的頂級玩家。同時,我們會講解DQN的變種Double DQN、Prioritized Replay,Dual DQN。

2、實踐準備

介紹深度神經網絡DNN以及RNN.。Keras安裝,動手設計RNN網絡,解決分類問題。

3、深度強化學習實戰,親自動手編寫一個可以打敗遊戲高手的AI。

4、Bug調試、老師答疑、指導、交流。

第四天 授課老師 郭憲

1、策略梯度方法:

教學內容包括: 策略梯度方法介紹, 似然率策略梯度推導及重要性採樣視角推導,似然率策略梯度的直觀理解, 常見的策略表示,常見的減小方差的方法:引入基函數法,修改估計值函數法

2、編程實踐課:基於tensorflow和gym實現小車倒立擺系統、乒乓球遊戲

3、TRPO 方法介紹及推導:具體包括替代回報函數的構建,單調的改進策略,TRPO 實用算法介紹,共軛梯度法搜索可行方向,PPO 方法,基於 python 的 TRPO 方法實現

4、編程指導、交流、答疑。

第五天:主講老師:郭憲

1、AC方法,具體內容包括隨機策略與確定性策略比較、 隨機策略 AC 的方法、確定性策略梯度方法、DDPG 方法及實現、A3C 方法講解、基於 python 的 DDPG 方法實現。

2、AC方法及DDPG、A3C實現。

3、逆向強化學習介紹,包括逆向強化學習分類、學徒學習、 MMP 方法、結構化分類方法、 神經逆向強化學習、最大熵逆向強化學習、相對熵逆向強化學習、深度逆向強化學習。

4、編程指導、答疑、交流。

課程諮詢、報名,請掃描海報中二維碼,諮詢課程祕書,或者聯繫QQ:339197723,註明國慶課程報名諮詢

講師介紹

郭憲,南開大學計算機與控制工程學院博士後。2009 年畢業於華中科技大學機械設計製造及自動化專業,同年保送到中國科學院瀋陽自動化研究所進行碩博連讀,主攻機器人動力學建模與控制,於 2016 年 1 月獲得工學博士學位,期間在國內外知名雜誌和會議發表論文數 10 篇。2016 年以來,郭博士主攻方向爲機器人智能感知和智能決策,目前主持兩項國家級課題,內容涉及深度學習,深度強化學習等智能算法在機器人領域中的應用。郭博士於 2017 年 3 月開始在知乎專欄強化學習知識大講堂,其深入淺出的講解收到廣大知友一致好評。即將出版《強化學習深入淺出完全教程》一書。

知乎專欄鏈接: https://zhuanlan.zhihu.com/sharerl

Traffas,於2014年7月在瑞典皇家理工學院獲得碩士學位,曾在瑞典Accedo公司做程序開發,現在在香港理工大學計算機系攻讀博士學位,任研究助理。Traffas的研究方向爲機器學習、增強學習。目前已發表六篇論文,其中包括中國計算機學會(CCF)推薦的B類論文1篇,C類會議論文1篇.

活動說明

1.授課時間地點:10.2-10.6日

2.北京海淀區(具體地點另行通知)

3.招生人數:精品小班制,上限30人,報名15人以上開班。

4.學費:7999 早鳥票7499(9.24日之前)

5.報名時預付訂金即可,在課程現場補齊剩餘票款。普通票預付:1499元 ; 早鳥票預付:999。

6.活動說明:凡報名參加本次國慶特訓營的學員,一年之內可以免費參加兩次由我公司主辦的爲期兩天的線下課程(價值5999元),後續我們會陸續推出強化學習、深度學習、機器學習等線下課。

7.票價不包含交通住宿費,主辦方可以協助有住宿需求的學員拼房。

8.購票後如有其它原因無法參加本次課程,可憑票參加下期課程。

9.如有問題,請加客服微信:機器之心小助手II(syncedai2)。

責任編輯:

文章來源:機器之心