ASSIA | 中國自動化學會「深度與寬度強化學習」智能自動化學科前沿講習班（一）

2018-06-11 10:23:00.0

雷鋒網(公衆號：雷鋒網) AI 科技評論按：2018 年 5 月 31 日-6 月 1 日，中國自動化學會在中國科學院自動化研究所成功舉辦第 5 期智能自動化學科前沿講習班，主題爲「深度與寬度強化學習」。

如何賦予機器自主學習的能力，一直是人工智能領域的研究熱點。在越來越多的複雜現實場景任務中，需要利用深度學習、寬度學習來自動學習大規模輸入數據的抽象表徵，並以此表徵爲依據進行自我激勵的強化學習，優化解決問題的策略。深度與寬度強化學習技術在遊戲、機器人控制、參數優化、機器視覺等領域中的成功應用，使其被認爲是邁向通用人工智能的重要途徑。

本期講習班邀請有澳門大學講座教授，中國自動化學會副理事長陳俊龍，清華大學教授宋士吉，北京交通大學教授侯忠生，國防科技大學教授徐昕，中國中車首席專家楊穎，中科院研究員趙冬斌，清華大學教授季向陽，西安交通大學教授陳霸東，浙江大學教授劉勇，清華大學副教授遊科友等十位學者就深度與寬度強化學習技術在遊戲、機器人控制、參數優化、機器視覺等領域中的成功應用進行報告。

雷鋒網AI科技評論在本文中將對 31 日陳俊龍、宋士吉、侯忠生、季向陽、陳霸東的 5 場精彩報告進行介紹。6 月 1 日的精彩報告見下篇文章。

陳俊龍：從深度強化學習到寬度強化學習：結構，算法，機遇及挑戰

陳俊龍是澳門大學講座教授，中國自動化學會副理事長，國家千人學者，IEEE Fellow、AAAS Fellow、IAPR Fellow。

本報告討論強化學習的結構及理論，包括馬爾科夫決策過程、強化學習的數學表達式、策略的構建、估計及預測未來的回報。還討論如何用深度神經網絡學習來穩定學習過程及特徵提取、如何利用寬度學習結構跟強化學習結合。最後討論深度、寬度強化學習帶來的機遇與挑戰。

陳俊龍教授提出的寬度學習系統（Broad Learning System，BLS）是基於將映射特徵作爲 RVFLNN 輸入的思想設計的。此外，BLS 可以在新加入的數據以有效和高效的方式更新系統（輸入的增量學習）。BLS 的設計思路爲：首先，利用輸入數據映射的特徵作爲網絡的「特徵節點」。其次，映射的特徵被增強爲隨機生成權重的「增強節點」。最後，所有映射的特徵和增強節點直接連接到輸出端，對應的輸出係數可以通過快遞的 Pseudo 僞逆得出。

寬度強化學習相較於深度強化學習需要的訓練時間更短，計算更快的同時準確度也高，並使用額外的節點來提高準確度，常規方法則是提高層數。

陳俊龍教授認爲強化學習接下來還要面對安全性和有效性問題，過度擬合等一系列挑戰。

宋士吉：基於強化學習的深海機器人智能搜索與運動控制方法

宋士吉是清華大學自動化系教授，博士生導師，國家 CIMS 工程技術研究中心研究員。

本報告闡述強化學習在深海機器人智能搜索與運動控制領域的算法研究及其應用，從熱液羽狀流智能搜索與深海機器人運動控制兩個方面開展工作。在熱液羽狀流智能搜索方面，研究基於強化學習和遞歸網絡的羽狀流追蹤算法。利用傳感器採集到的流場與熱液信號信息，將機器人搜索熱液噴口的過程建模爲狀態行爲域連續的馬爾科夫決策過程，通過強化學習算法得到機器人艏向的最優控制策略。在深海機器人運動控制方面，研究基於強化學習的軌跡跟蹤與最優深度控制算法。在機器人系統模型未知的情況下，將控制問題建模成連續狀態動作空間的馬爾可夫決策過程，並構建評價網絡與策略網絡，通過確定性策略和神經網絡學習得到最優控制策略。

侯忠生：數據驅動的自適應學習控制

侯忠生是北京交通大學教授、博導，北京交通大學自動控制系主任。

本報告分爲以下 6 個部分：第 1 部分主要介紹數據驅動學習，之所以提出數據驅動學習是爲了應付模型未知的場景；第 2 部分主要介紹學習控制，該部分主要介紹了無模型自適應學習控制；第 3 部分主要介紹動態線性化方法，動態線性化特點在於它不依賴於模型，結構，順序等；第 4 部分是數據驅動自適應控制在時間軸上的應用；第 5 部分數據驅動自適應控制在迭代軸上的應用。第 6 部分是結論，即基於模型的控制理論收到越來越大的挑戰，數據驅動的的控制理論也許可以作爲解決方案。

季向陽：強化學習及智能控制與決策

季向陽是清華大學教授，國家傑青，中國青年科技獎獲得者。

本報告主要聚焦於強化學習在智能控制系統中的應用。強化學習（Reinforcement learning）是機器學習中的一個領域，強調如何基於環境而行動，以取得最大化的預期利益。其靈感來源於心理學中的行爲主義理論，即有機體如何在環境給予的獎勵或懲罰的刺激下，逐步形成對刺激的預期，產生能獲得最大利益的習慣性行爲。強化學習通常包括兩個實體 agent 和 environment。兩個實體的交互如下，在 environment 的 state s_t 下，agent 採取 action a_t 進而得到 reward r_t 並進入 state s_t+1。

本報告主要介紹如何在智能控制與決策中使用強化學習方法。

陳霸東：核自適應濾波與寬度學習

陳霸東是西安交通大學教授、博導，陝西省「百人計劃」特聘教授。

本報告主要聚焦於核自適應濾波與寬度學習相關內容，核自適應濾波器（Kernel Adaptive Filters）是近年來興起的在可再生核希爾伯特空間（RKHS）中實現的一類非線性自適應濾波器，其拓撲結構爲線性增長的單隱層神經元網絡。其基本思想是：首先，將輸入信號映射到高維核空間；然後，在覈空間中推導線性濾波算法；最後，利用核技巧（Kernel Trick）得到原信號空間中非線性濾波算法。與傳統非線性濾波器比較，核自適應濾波器具有以下優點：（a）如果選取嚴格正定的 Mercer 核函數，具有萬能逼近能力；（b）性能曲面在高維核空間中具有凸性，因此理論上不具局部極值；（c）隱節點由數據驅動生成，減少了人工參與；（d）具有自正則性（Self-regularization），可有效防止過擬合。因此，核自適應濾波概念提出以後引起了國內外研究者廣泛興趣，越來越多的相關算法被提出，並被應用到諸多領域。核自適應濾波與最近興起的寬度學習（Broad Learning）關係密切，可以認爲是一類基於核方法的寬度學習算法。本報告將深入系統地闡述核自適應濾波的基本思想、主要算法、性能分析、典型應用，以及如何將其與寬度學習納入統一框架。

陳俊龍、宋士吉、侯忠生、季向陽、陳霸東的 5 場精彩報告介紹如上，敬請期待雷鋒網 AI 科技評論的後續報道。

文章來源：雷鋒網

喜歡這篇文章嗎？快分享吧！