DeepMind將博弈論融入多智能體研究，讓納什均衡變得更簡單

2018-01-20 06:45:00.0

隨着 AI 系統在現實生活中變得越來越重要，我們自然該探索不同系統間的交互方式了，這些多智能體間到底用了什麼獨特的方式呢？

在 DeepMind 的最新論文（發表在 Scientific Reports , Nature 出版社旗下雜誌）中，研究人員用了博弈論來闡明這一問題。具體來說，他們研究了兩套智能系統在非對稱博弈遊戲（asymmetric game）中的反應和表現，這些遊戲包括 Leduc 撲克和一些圖版遊戲（如 Scotland Yard）。

在現實生活中，我們會遇到許多類似非對稱博弈遊戲的場景，自動拍賣（automated auction）就是其中之一。在這一過程中，會混入許多 AI 扮演的買家或賣家，而真正參與其中的人類買家和賣家也都有自己的小算盤。最終的測試結果讓研究人員對這種奇怪的情況有了深刻了解，他們還拿出了一個相當簡單的分析方法。

雖然 DeepMind 的主要目標是如何將博弈論應用到多個 AI 系統的交互中去，但研究人員得出的結果也可以用在經濟、生物進化和實證博弈論等學科中。

衆所周知，博弈論是數學界的重量級理論，研究人員通常會用它來研究競爭態勢下決策者們的戰略，該理論幾乎可通用於人類、動物和計算機世界。不過，在 AI 研究中，它一般會被用在「多智能體」環境下的研究中。舉例來說，多款家政機器人合作清潔房間就屬於其中的應用場景之一。

一般來說，多智能體系統的演化動力學都靠簡單的對稱博弈論來分析，比如經典的囚徒困境理論。雖然此類遊戲能幫我們對多智能體系統的工作方式有一定了解，並告訴我們如何實現你好我好大家好的理想結果（即所謂的納什均衡），但卻無法模擬所有情況。

DeepMind 的新技術讓研究人員能快速容易地在更復雜的不對稱博弈遊戲中找到取得納什均衡的策略，這類遊戲中玩家通常有不同的戰略、目標和獎勵。如果你想了解 DeepMind 是如何用新技術「破解」這類遊戲的，可以試着去了解「性別博弈」，它也是博弈論研究的經典案例之一。

在「性別博弈」中，兩個玩家要協調晚上到底去哪玩，是去看歌劇還是看電影？令人遺憾的是，他們中有一個人傾向於看歌劇，另一個人則偏愛電影。這樣的情境下，不對稱的情況就出現了，因爲即使兩個人達成一致，其中也有一個人會不高興。因此，要想繼續維持兩人的友誼（劃掉），或者說均衡，玩家就該共進退（畢竟產生分歧換來的只有零回報）。

這個遊戲有三種「勢均力敵」的均衡情況：

兩個玩家都決定去看歌劇，

兩人都選擇去看電影，

則是混合選項，即每位玩家在夜晚外出的五分之三時間內享用自己的心頭好。

第三種選項是一種「不穩定」（unstable）選項，用 DeepMind 的方法很輕鬆就能進行簡化或者分解，非對稱博弈遊戲也就轉換成爲對稱的對應部分。這一方法將兩個玩家的獎勵表分別當作獨立的雙玩家對稱博弈，這樣也能輕鬆地找到原本不對稱博弈遊戲的納什均衡點。

在下圖中，b 和 c 圖的納什均衡點很容易找到，藉助它們我們就能在非對稱博弈中找到 a 圖中的最佳策略。當然，我們也可以反過來，通過非對稱博弈來找尋對應體中的平衡點。

紅點代表納什均衡。對於非對稱博弈遊戲(a)，可以從(b)與(c)代表的兩個對應圖中找到納什均衡。如圖所示，x軸和y軸分別代表玩家1和2選擇看歌劇的可能性。

這種方法還可運用於其他遊戲，比如 Leduc 撲克，在論文中研究人員還對它進行了詳細解讀。無論哪種情況下，這種方法都足夠簡單，它能幫玩家快速和直接的分析非對稱博弈遊戲，進而幫助我們理解不同的動態系統，其中就包括多主題環境下的系統交互。

Via. DeepMind

論文地址：https://www.nature.com/articles/s41598-018-19194-4,

文章來源：雷鋒網

喜歡這篇文章嗎？快分享吧！