如何管教AI的行爲舉止?OpenAI早已開始研究,而這只是整個AI安全領域的前哨

 2017-08-14 16:57:00.0

雷鋒網 AI 科技評論按:在比賽中刷成績和在遊戲中擊敗人類職業選手僅僅是 AI 研究的一部分,OpenAI 的研究人員們同樣重視對 AI 安全性的研究。這篇文章是紐約時報來到 OpenAI 實驗室的報道,介紹了 OpenAI 近期在 AI 安全領域的想法和一些成果,也讓我們看到了 OpenAI 研究人員的風采。雷鋒網(公衆號:雷鋒網) AI 科技評論編譯。

自學的人工智能可能學到奇怪的行爲

在舊金山的 OpenAI 人工智能實驗室中,計算機們可以自我學習、學會人類的舉止。不過有時候也會出問題。

如何管教AI的行爲舉止?OpenAI早已開始研究,而這只是整個AI安全領域的前哨Geoffrey Irving(左)和 Dario Amodei 展示可以在簡單的遊戲中訓練人工智能

前不久的一個下午,OpenAI 的研究員 Dario Amodei 在辦公室裏展示了一個自己學會玩 Coast Runners 小遊戲的 AI 系統。這個遊戲是一個頗有年份的電腦遊戲,通過終點的時候得到的分數最高的船就是遊戲的勝者。

不過 AI 系統的表現讓人意外:遊戲規則是吃掉屏幕上不停出現的綠色點點就會得分,而這隻船對它們太感興趣了,它根本不急着衝向終點,而是不停繞圈、跟其它的船撞在一起、蹭着牆壁滑行,還有反覆着火,就是不惜一切代價去得分。

Dario Amodei 着火的小船遊戲就展示出了正在迅速改變科技界的 AI 技術背後的風險。研究員們研究的是如何讓機器自主學習,Google 的 DeepMind 也做的是類似的事情,他們開發出了能夠擊敗世界頂級選手的 AlphaGo。但是隨着這些機器在數小時的數據分析中自我訓練,它們也可能會學會一些人類沒有估計到的、不希望看到的、甚至是會造成實質性傷害的行爲。

當網絡服務、安全設備和機器人都開始用上 AI 技術以後,這樣的擔憂就無法忽視了。現在,Dario Amodei 在內的一部分 AI 研究人員已經開始聯手探索新的技術理論來避免最糟糕的情況發生。

在 OpenAI,Dario Amodei 和他的同事 Paul Christiano 正在一起開發新的算法,他們希望這些算法不僅能在數小時的試錯中學習,還能夠在途中接受來自人類老師的普遍性指導。

現在他們已經找到了一種方法讓 AI 系統知道 Coast Runners 的小船要邊得分、邊往終點走才行,而且人類只要在屏幕上點一點就可以。他們相信這樣能夠綜合利用人類和機器指導的算法可以幫助確保無人系統的安全性。(這項研究的具體內容可見雷鋒網 AI 科技評論之前的報道 你做我評——OpenAI和DeepMind全新的強化學習方法,根據人類反饋高效學習

如何管教AI的行爲舉止?OpenAI早已開始研究,而這只是整個AI安全領域的前哨

Dario Amodei 和他的同事正在開發新算法,不僅能夠自己試錯學習,人類也可以給與指導

不可忽視的風險

近幾年來,埃隆馬斯克以及其它一些權威、哲學家、科技愛好者都在反覆警告機器有可能擺脫人類的控制,學到一些設計者並不希望看到的有害行爲。隨着時間慢慢過去,人們似乎忘掉了這些警告,畢竟如今的自動駕駛汽車在識別行車線或者識別紅燈這樣最基本的任務中都會表現得磕磕絆絆。

但是 Dario Amodei 這樣的研究者是希望趕在危險出現之前就把它們消滅掉。從某種意義上說,這些科學家做的事情就像是父母給小孩教什麼是對、什麼是錯。

許多 AI 界的專家都相信強化學習會是通往人工智能的主要途徑之一,這種方法裏機器要反覆試錯才能最終學會做某件特定的事情。研究人員們爲機器指定好一個它要追求的回饋,它就會隨機地做出行動「嘗試」達成任務,同時也密切關注着哪些事情會帶來更高的回饋。當 OpenAI 的研究人員訓練那個 AI 玩 Coast Runners 的時候,他們給它設定的回饋目標就是獲得更高的分數。

雖然這只是一個遊戲,但是能從裏面影射出現實世界的狀況。

研究人員們相信,如果一臺機器學會了玩 GTA 這樣的競速遊戲,它就能開一輛真車;如果它能學會用網頁瀏覽器和其它一些常用的軟件,它就學會了理解自然語言,可能還能夠跟人對話。在谷歌和UC伯克利大學,機器人們已經用上了這樣的技術來學會撿起東西或者開門等簡單任務。這些事情不僅是 AI 開發測試的理想環境,能夠完成它們也說明了 AI 具有相當的智能,接下來可以在更真實的環境中完成任務。

正因爲這樣,Dario Amodei 和 Paul Christiano 更加努力地想要開發出新的、能夠讓人類從中給予指導的強化學習算法,才能夠保證 AI 系統不會偏離它們要完成的任務——誰都不想讓 AI 系統在現實中造成不好的後果。

更多研究者已經加入了這個領域

這兩位 OpenAI 的研究員已經和倫敦的 DeepMind 實驗室的人一起發佈了一些這方面的研究成果。雖然他們以往並沒有什麼合作經歷,但畢竟兩個都是世界頂級實驗室,這些算法也確實算得上是 AI 安全研究方面顯著的一步。

UC伯克利的研究員 Dylan Hadfield-Menell 說:「這種做法可以驗證很多前向思考的成果,類似這樣的算法在未來5到10年內有很大的潛力。」

AI 安全這個領域不大,但是一直在成長。隨着 OpenAI 和 DeepMind 都建立了專門致力於 AI 安全的研究小組,谷歌的本土實驗室 Google Brain 也加入了進來。同時,來自UC伯克利、斯坦福等大學的研究者也在研究着類似的問題,也經常與這些大公司實驗室展開合作。

如何管教AI的行爲舉止?OpenAI早已開始研究,而這只是整個AI安全領域的前哨

站着的是 Dario Amodei,Paul Christiano 穿着淺藍襯衣,Geoffrey Irving 正在白板上寫寫畫畫

有時候,研究者們研究的是確保 AI 系統不會自己犯錯,像 Coast Runners 裏的小船那樣。他們也需要避免攻擊者和其它懷有惡意的人發現系統中的漏洞。比如谷歌的研究員 Ian Goodfellow 就已經在研究中發現攻擊者可以欺騙 AI 系統,讓它們以爲自己看到了別的東西。

現代計算機視覺的基礎是深度神經網絡,它們是一類模式識別系統,在經過大規模數據訓練以後就可以學會特定的任務。用成千上萬張狗的照片訓練過以後,神經網絡就可以學會識別一條狗。Facebook 就是用這樣的方式識別自拍中的人臉的,谷歌也是這樣在照片應用中對圖像做即時搜索的。

不過 Ian Goodfellow 等人已經表明了攻擊者可以修改一張圖像,讓神經網絡以爲圖像裏面是別的東西。比如對一張大象照片裏面的某些像素做改動以後,就可以讓神經網絡把它識別成一輛汽車。

當神經網絡用在安防攝像頭中的時候,這就會成爲實實在在的麻煩。根據研究員們所說,在臉上畫幾個記號就可以讓攝像頭以爲你是別的人。

Ian Goodfellow 也說:「即便用一百萬張人類標註的圖像訓練出一個物體識別系統,我們仍然可以創造出人類和計算機的識別結果100%不同的新圖像。這種現象還需要我們繼續深入瞭解。」

另一個難以忽視的擔心是 AI 系統可能會學到一些方法,防止人類把它們關掉。在給機器設定了目標回饋以後,隨着它的嘗試和思考,它可能會覺得只有保證自己一直在運行才能夠一直獲得這些回饋。這個常常被提及的威脅可能距離目前的狀況更遠一點,但是研究者們也已經開始着手做預防。

Hadfield-Menell 和其它的 UC伯克利學者最近發表了一篇論文,介紹了一種解決這個問題的數學式方法。他們表明,如果設計機器的時候專門給它設定了一個不確定的回饋函數的話,它就會想辦法保持它的開關是打開的。這就給它選擇接受人類監管還是逃出去帶來了刺激。

安全方面多數的研究還是理論性的。不過從 AI 技術的飛速發展和在許多工業應用中越來越重要的地位看來,研究者們認爲相關研究開始得越早越好。

DeepMind 的 AI 安全研究負責人 Shane Legg 給出了他的看法:「AI 發展得這麼快,未來到底怎麼樣還很難說。這些技術可能被濫用、被攻破的方式有很多,負責任的做法就是要嘗試理解這些方法,並且設計各種解決方法。」

via New York Times,雷鋒網 AI 科技評論編譯

相關文章:

你做我評——OpenAI和DeepMind全新的強化學習方法,根據人類反饋高效學習

Ian Goodfellow和Papernot半年三篇博文,對機器學習的安全隱私來了個大起底

一文詳解深度神經網絡中的對抗樣本與學習

文章來源:雷鋒網