需要什麼樣的智能助理,是《棋魂》中的佐爲還是蠟筆小新?

 2017-01-12 20:50:00.0

雷鋒網按:本文作者袁峻峯,花名觀妙,螞蟻金服人工智能部,復旦金融學碩士,FRM金融風險管理師。10年以上從事金融IT相關領域工作經驗,包括國內銀行間市場金融產品(包括衍生產品)的量化分析、市場風險管理以及相關係統實現等。目前從事並關注於金融領域機器學習相關主題與應用,歡迎探討。

對於閒聊機器人來說,如果告訴其你失戀了,能回個「藍瘦,香菇」。那這聊天機器人挺牛。一定是經常更新訓練數據,與時俱進。但回過來一想,求之不得的憂傷,恆久遠已,天下之才獨佔八斗並且貴不可言的陳思王曹植,不也因爲求不得寫了篇《洛神賦》。詩經中也有「漢有遊女 不可求思」, 」求之不得 寤寐思服」的句子。王菲的歌詞中也有」思念是一種很玄的東西,如影隨形,無聲又無息出沒在心底,轉眼吞沒我在寂默裏,我無力抗拒,特別是夜裏,想你到無法呼吸」。這麼多樣的表達。情感是難以描述的,「我們的精神狀態是如此複雜,只能以類比的方式來描述」[1],中國曆來的文人墨客最是擅長比興手法,我們不排除「藍瘦,香菇」是一種表達,但中文中那麼更優美的表達也不該忽略。而按目前基於大量聊天樣本,當客戶反饋時既爲正樣本,通過深度學習RNN之類的模型解決Sequence2Sequence的問題。如能學到一個機智對話的蠟筆小新已是很贊,而且目前也還有很長的路。

那我們如將特定領域的問題答案做成樣本,同樣將其看做Sequence2Sequence映射問題。通過深度學習模型去擬合這個複雜映射函數。且不說這是個有多少人工就有多少智能的方案。可以想象這種方式《棋魂》中的佐爲肯定也是訓練不出來的。

需要什麼樣的智能助理,是《棋魂》中的佐爲還是蠟筆小新?

一 、理想中的智能助理

「人工智能助理:這裏指的是Intelligent personal assistant/agent (IPA) ,指幫助個人完成多項任務或多項服務的虛擬助理」[2],如何幫助?在文章[2]中,提出對話式助理至少滿足這幾點功能:」具備基於上下文的對話能力,具備理解口語中的邏輯,所有能理解的需求,都要有能力履行。[2]但這樣幫助就夠了嗎?能不能像YY玄幻小說中的深山偶獲老法師靈體,之後在你修行中的方方面面問題中提供指導。喬布斯在一次訪談中提到」我認爲展望未來50至100年,如果我們真能開發出一款設備,它可以捕捉潛在精神,或者一套潛在的原則,或者是潛在的看待世界的方式,這樣當下一個亞里士多德出現的時候……也許他可以隨身攜帶這款設備,將所有東西都輸入其中。這樣當這個人死後,我們就可以問這款設備‘喂,對此亞里士多德會怎麼說?’,我們得到的答案或許是錯誤的,或許是正確。但是想到此我就已經很激動了。」這應該也是指通過人工智能借助於大師、領域專家的經驗爲各樣的決策提供建議。那是不是理想中的智能助理定位是在收集各樣信息的基礎上,結合其強大的計算能力和人類已有的決策樣本數據提供預測與決策建議呢?

前幾天,AlphaGo升級版Master最終以60勝0負的成績在快棋戰橫掃中日韓三國頂尖棋手。聶衛平賽後說:「Master顛覆了多年的定式。而且最後證明它的選擇都成立。」 柯潔九段也表示:「從來沒見過這樣的招法,圍棋還能這麼下?看Master的招法,等於說以前學的圍棋都是錯誤的,原來學棋的時候要被罵的招法現在Master都下出來了。」 李喆在賽後總結「每盤棋裏,AI大部分的招,都和人類棋手的想法接近。體現了人類經驗仍然具有有效性。。。人無法完全做全局運算,因此會因經驗侷限性而錯失對當前盤面的針對性」。可想而知,結合了人類經驗(樣本數據),加上計算機強大的計算能力,在圍棋這樣的完全信息博弈遊戲領域必然橫掃頂尖棋手。

需要什麼樣的智能助理,是《棋魂》中的佐爲還是蠟筆小新?

那在非完全信息博弈領域呢? 「撲克這類不完全信息擴展式博弈以其隨機性、信息不完全可見性、博弈規模大等特徵」[4]是不是可以阻擋人工智能的腳步。答案是乎也是否定的。「由卡耐基梅隆大學(CMU)開發的名爲 Libratus 的人工智能系統即將開始一場新的挑戰:試圖在一對一、無限制投注的規則下擊敗世界最強的人類德州撲克玩家。」[5]藉助於博弈論與強化學習等模型以及專業玩家的樣本數據,結合計算的強大計算能力,在這一領域的遊戲中人工智能終也將完勝人類。 

二、理想中的提供預測與決策建議智能助理的可行嗎?

如此看來,是乎是可行的。不過還是先聽聽人工智能領域先驅馬文·明斯基等人的意見。

莫拉維克悖論

百度百科中描述:莫拉維克悖論(Moravec's paradox)是由漢斯·莫拉維克、布魯克斯、馬文·明斯基等人於1980年代所闡釋。人類所獨有的高階智慧能力只需要非常少的計算能力,例如推理,但是無意識的技能和直覺卻需要極大的運算能力。如莫拉維克所寫「要讓電腦如成人般地下棋是相對容易的,但是要讓電腦有如一歲小孩般的感知和行動能力卻是相當困難甚至是不可能的。」

馬文·明斯基在其著作《情感機器》[1]中討論了人類大腦思維運行方式,嘗試設計能理解、會思考的人工智能,也討論爲什麼會有莫拉維克悖論。書中明斯基提出「所有的現代程序都不具備常識性知識(Commonsense Knowledge)」[1]所以會給人感覺有時不夠智能。這些常識性知識和推理包括[1]

  • 正面經驗(Positive Expertise):知道在哪種情況下該使用哪種類型知識。

  • 負面經驗(Negative Expertise):知道不該採取哪種行動,因爲可能會使事情變得更糟。

  • 調試技能(Debugging Skills):當常規方法不再適用時,還有其他可供選擇的方法。

  • 適應技能(Adaptive Skills):知道這樣把原有知識應用到新情況之中。

明斯基提出了框架表示常識的結構化知識表示。這屬於機器學習中的符號主義(Symbolists),不同與當前聯結主義(Connectionists)的深度學習。目前該領域還在探索期,已有一些基於知識圖譜方面應用。並且這些常識性知識和推理難以在深度學習模型中得到解決。遷移學習也是試圖在聯結主義框架下將通用領域的訓練結果遷移到特定領域,目前也還在探索期。 需要什麼樣的智能助理,是《棋魂》中的佐爲還是蠟筆小新?

來源:情感機器[1] 

「專家是一位無須思考就知道結果的人」[1],所謂常識可以認爲是一種直覺。愛迪生說過「天才就是99%的汗水+1%的靈感,但沒有這1%的靈感那99%的汗水也是徒勞」,靈感既大師在決策時的直覺。「郝伯特·西蒙對比過國際象棋世界冠軍十年間不同的下法,認爲這是這是全部職業強選手的集體經驗而積累起來的知識的結果。專家和新手區分不僅僅是前者具有大量和多樣的信息,而且是他的直覺經驗使他能發現他所面對的形勢中的熟悉模式,長期記憶中儲存大量的棋子的共同模式,通過識別這些模式,從長期記憶中重新找到大量相關信息。」[5],這些並不需要大量複雜的全局計算,而「AlphaGo中使用蒙特卡羅樹搜索(Monte Carlo Tree Search,MCTS)結合估值網絡(Value Network)來做可選方案集合選取。」[6] 兩者完全是不同的途徑。目前要讓人工智能有如小孩般的學習能力與通用常識都很遙遠。更別說像大師、領域專家爲各樣的決策提供建議。扎克伯格在搭建他的智能助理Jarvis時也說「我們距離了解學習的本質仍然很遙遠,我們仍然不知道將如何從一個領域中獲得的想法應用到另一個完全不同的領域中去。「[7]

數據,樣本在哪裏?

另一個問題是,目前的深度學習需要端到端的樣本數據。AlphaGo是使用段位以上圍棋專業棋手對弈樣本,並通過自我對弈擴大樣本數。而智能助理面對個人方方面面的任務、事件,更加無法得到那些專業的正樣本數據。並且每個助理面對客戶的情況都是不同的,個體都是獨立的,不可能得到訓練所需的樣本數據。

不可能獲得實質理性所需的全局信息

羅振宇在跨年演講中說道「在人工智能邏輯裏,它不關心人類對一件事情的定義,但是它可以輸出你要的答案。只要有大量的數據,它就能用跟人完全不同的思路,達到同樣的結果。」真是如此嗎?筆者並不認同,人工智能是和人的思維不同,但不等於有大量數據就能得到同樣效果或更好效果。因爲「我們知道,通過深度學習和大數據,一定能得到一個更優的模式識別效果。但前提是我們假設未來和歷史特徵向量是符合同一概率分佈。未來當然不會和歷史是同一概率分佈,就像彼得·林奇說的‘你無法從後視鏡中看到未來。’哈耶克也說過‘我們做出的預測有可能被否定,因爲他們只具有經驗的意義。’」[6]哈耶克舉過一個例子,對一場足球比賽,如果我們熟悉球賽,瞭解球隊,並可以監測賽場上每一刻球員狀態包括心肺、肌肉等等,但球賽的結果還是超出了科學預測的範圍。因爲我們的基於經驗的預測能力也僅限於事件的一般特點,並不包括預測每個具體事件的能力。所以即使有足夠的數據,機器也不一定能得出比從1990年起每次國足比賽都押輸更牛逼的策略。

另外一點是,智能助理能得到每個具體事件決策所需要的所有信息嗎?即使人類生活在《黑客帝國》電影中的Matrix,其中的機器人主宰也不是能掌控所有信息,如電影所說總有些自由意志是不可知。哈耶克說過「社會的經濟問題就是一個知識利用的問題,而這種知識並沒有完整的給予任何一個人」。所以即使在大數據時代也不可能獲得全局知識與信息。

三、智能助理該做什麼

既然智能助理定位不是在收集各樣信息的基礎上,結合其強大的計算能力和人類已有的決策樣本數據提供預測與決策建議。那是不是可以退一步,定位在收集各樣信息,並輔助人類決策呢?根據諾貝爾經濟學獎,圖靈獎獲得者郝伯特·西蒙的不確定性環境下決策理論:應當是有限的理性,而不是全知全能的理性;應當是過程合理性,而不是本質合理性。過程理性決策步驟可以參考文章[6]中描述。再結合智能助理的定位,我們可以設想智能助理需要實現如下功能:

  • 前提:客戶信息收集以及相關領域信息收集

  • 「具備基於上下文的對話能力,具備理解口語中的邏輯」[2].

  • 提供決策相關信息以及可選方案集。

  • 在特定領域輔助履行。

  • 決策後跟蹤相關信息,獲得新數據,是持續優化決策的過程。

前提:客戶信息收集以及相關領域信息收集

智能助理需要收集客戶的個人信息,這不只是千人千面的客戶標籤畫像,而是認爲每個人都是獨立的個體。電影《Her》中人工智能薩曼莎是位稱職的智能助理,她被啓動後立即申請是掃描主人公的硬盤。在扎克伯格的Jarvis 不但控制了他家的全部家電、門禁,還包括收集個人生活偏好。「一個AI系統就能越好地處理開放式問題。我經常只對Jarvis說‘播放音樂’,它會查看我過去的聽歌習慣」[7]。授權智能助理收集個人信息的前提是信任,使用者必須相信電影《Her》中智能助理薩曼莎同時和8316個人溝通同時,每個智能助理都是獨立的並能保護每位使用者個人隱私。

這些天北京又持續爆表霧霾,是否要讓孩子離開北京,是很多家長非常糾結的問題。吳曉波在文章[8]中爲賣房去大理的寬寬做了一個財務規劃。如果這個問題提給智能助理,其需要收集寬寬當前財務以及房產情況,並以寬寬的名義詢問各銀行二手房按揭利率信息,以及瞭解大理房價信息,是否有購房限制等等。這些都是智能助理需要收集領域知識與信息。

提供決策相關信息以及可選方案集

參考文章[8],在寬寬提出移居大理後,智能助理應該根據之前收集的信息給出以下兩個方案:

1)賣房530萬,購大理房一次性付款130萬元。400萬理財。

2)抵押房子給最優貸款條件的銀行,貸款利率5.4%,拿到159萬元買大理房。每年需支出利息8.58萬元,房屋租金9.6萬元。

如何抉擇並不是智能助理的職責。寬寬可以聽從吳曉波基於他的專家經驗,認爲「人民幣正處在一個不可逆轉的貶值週期中…最保守的計算,未來M2維持年均10%的增速」[8]得出結論是「所以,請你「拋棄」北京的時候,儘量不要拋棄北京的房子。」[8]。但寬寬也可以認爲既然人民幣正處在一個不可逆轉的貶值週期中,那將400萬換成美元理財、基金。如果房價未來以美元計價跌了,那麼她再買回來。又或是她在大理找到更加明確的人生的真諦,選擇了新的生活方式,不願再回北京,那北京房價再高也和她沒有關係。這些都是她的決定,無法讓智能助理代其抉擇,但智能助理可以提供方案以及可能的後果。

在特定領域輔助履行

在電影《Her》智能助理薩曼莎在評價主人公文章的價值後,將其文章發給出版社編輯從而得以出版。忽略其中代替決策的部分,能知道如何在特定領域輔助履行決策已是很難。就和知道特定領域收集什麼信息一樣困難。目前這方面多是基於專家經驗的模板實現。

決策後相關信息跟蹤,獲得新數據,是持續優化決策的過程

持續跟蹤相關信息,再有新的重要信息告知用戶。比方如果北京房價跌了,寬寬的美元理財、基金漲了,北京空氣持續優化。這時可以讓寬寬抉擇是否購回北京房產。如果相反那就不用說了,免得添堵。

預測重要,但也沒那麼重要

在上面買房輔助決策中,並沒有預測十年後房價,也沒有預測利率、匯率,或他們未來可能的生活方式。而是提供當前事實性的信息,可貸款信息,房價信息等,以及可選的方案。當然,如果能準確預測未來房價,那就是個規劃問題。目前看來,未來之眼的機器並不存在。而且如果人人都一個完美預測的機器,那就引入新的變量,原有的預測都又不準了。另外一點,目前也不可能每人都有AlphaGo的計算能力,有篇報道稱在2015年10月的公佈的版本, AlphaGo使用一千多塊CPU及一百多塊GPU,圍棋還只是完全信息博弈遊戲。

既然無法準確預測,那就提供可選方案對當前決策緩衝預測誤差影響。如用400萬換套小些、遠些的房子。

四、總結

本文認爲,基於端到端樣本數據的深度學習模型並不是智能助理的唯一模型。智能助理的定位不是提供各領域問題的專家建議與預測。而是在收集相關信息的基礎上,結合其強大的計算能力爲決策提供合適的事實信息以及可選的方案。應該是需符合郝伯特·西蒙的不確定性環境下決策理論,以過程理性解決問題的持續優化的過程。不只是預測。  

參考文獻:

[1] 馬文·明斯基. 情感機器[M]. 浙江人民出版社.2015,12.

[2] Mingke.爲什麼現在的人工智能助理都像人工智障?[OL].S先生.2016-11-21.

[3] 袁峻峯. 投資版AlphaGo系統探討 [OL]. 螞蟻金服評論(公衆號). 2016-03-14.

[4] 機器之心編譯. 業界 | 人工智能將挑戰德州撲克,與人類爭奪20萬美元獎金[OL]. 機器之心. 2017-01-06.

[5] 胡裕靖,高陽. 撲克遊戲中的不完美信息博弈[OL].

[6] 袁峻峯. 結合AlphaGo算法和大數據的量化基本面分析法探討[OL].大數據文摘.2016-11-25.

[7] 扎克伯格.扎克伯格開發筆記:打造Jarvis的日子,我慶幸自己從未停止過編程[OL].雷鋒網(公衆號:雷鋒網).2016-12-22.

[8]吳曉波. 在大理的你,請好好呵護北京的房子[OL]. 吳曉波頻道.2016-11-30.

作者聯繫方式:郵箱yuanjunfeng_fr@163.com , 微信 jake-80 。

雷鋒網特約稿件,未經授權禁止轉載。詳情見轉載須知

需要什麼樣的智能助理,是《棋魂》中的佐爲還是蠟筆小新?

文章來源:雷鋒網