史丹佛大學李飛飛團隊發表計算機視覺人口統計新方法

2017-11-30 12:18:00.0

選自Stanford News

斯坦福大學的研究者們正在使用計算機視覺系統，利用谷歌街景圖片上街邊汽車的型號來識別給定社區的政治傾向，其識別準確率超過了 80%。這項研究的論文已發表在《美國科學院論文集》上，研究人員表示，新的研究不僅可以節省大量人力開支，也可以爲人口統計任務提供前所未有的實時數據。

從奢華的賓利到經濟家用的 MPV，再到實用的皮卡，每個美國人駕駛的汽車都或多或少是他們個性的外在表述。就像俗話說的：你就是你所開的汽車，斯坦福大學的研究人員正在把這一思想提升到新的高度。

通過計算機視覺算法，一羣研究人員正在利用谷歌街景上數百萬張公開圖像展開分析。研究人員稱，只要看看街邊的停着的汽車，他們開發的算法就可以識別出社區的政治傾向。

李飛飛，斯坦福大學計算機科學教授

「通過使用這種易於獲得的視覺數據，我們可以學習到衆多社區的方方面面，而想要從人口普查中獲知這些信息需要花費數十億美元。更重要的是，新的研究打開了利用計算機視覺信息對社會進行探究的思路，」斯坦福大學計算機科學副教授，斯坦福人工智能實驗室和斯坦福視覺實驗室負責人李飛飛說道，她也是這一研究的參與者之一。

作爲著名圖片數據集 ImageNet 的發起人，李飛飛是計算機視覺和深度學習的著名學者。在衆多研究人員的努力下，人工智能在今天已經可以從二維圖片中識別三維物體——計算機可以看到並識別它所見到的東西。

在李飛飛等人的研究下，新的算法通過谷歌街景中 200 個美國城市的超過 5000 萬張圖片進行學習，並在自我訓練過程中學會了識別自 1990 年以後所有汽車的品牌、型號與出產年份。

汽車的類型和地址隨後會與（目前最爲全面的人口數據庫）美國社區情況調查和美國總統投票結果數據相匹配，以評價種族、受教育程度、收入以及投票傾向。

李飛飛和她的團隊發現汽車、人口統計與政治傾向上存在簡單的線性關係。這種社會學關聯「簡單而有力」，該研究的論文《Using deep learning and Google Street View to estimate the demographic makeup of neighborhoods across the United States》剛剛發表在《美國科學院論文集》上。

例如，如果一個社區路邊轎車的數量大於皮卡，那麼這個社區有 88% 的機率傾向於民主黨。而與之相反的社區有 82% 的機率傾向於共和黨。

及時與連續

除了對於政治傾向的見解之外，研究人員相信他們的算法能夠爲目前的人口統計學調查帶來更多及時與連續的幫助。目前的「美國社區調查（American Community Survey）」採用挨家挨戶的探訪調查形式，每年都會花費美國政府超過 2.5 億美元的費用。即便花費如此巨資，收集到的數據距離整理髮表也要延遲兩年甚至更久，在小城市和農村地區尤爲如此。

相比之下，李飛飛的研究基於公開的，經常更新的數據集之上，由谷歌街景構建與投資，而生成分析結果的過程是近乎實時的。

「我認爲這樣的技術並不會替代 American Community Survey，但它可以作爲一個補充，讓數據實時跟進，」該論文的第一作者，李飛飛實驗室的原成員 Timnit Gebru 這樣說道。Gebru 目前是微軟研究院人工智能組 Fairness Accountability Transparency and Ethics（FATE）的一名博士後。

Gebru 表示，要實現這樣的成果並不容易。他們的研究團隊首先對自 1990 年以來的所有汽車型號手動建立了一個圖像數據集，對生產年、品牌、型號、不同配置分別進行標記，隨後纔開始訓練計算機從模糊的圖片中區分這些車型的細微差別。

細微的差異

他們從來自汽車銷售網站 Edmunds.com 的一個包含 15,000 輛汽車的數據集開始。接下來人類專家需要將汽車根據細節一個接一個地分類。例如，本田雅閣的 2007 年版本和 2008 年版本的差異，只是一個幾乎無法察覺的尾燈變化。

該算法運行得很快，只需要兩週時間就可以將全部 5000 萬張圖像根據品牌、型號和出產年份分爲 2657 個類別。相比之下，一個人以每分鐘 6 張圖像的速率工作，需要 15 年才能完成這個任務。

面對其他人對該研究提出的質疑，Gebru 說。他們指出圖像拍攝時間的不一致性可能會影響交通模式和汽車型號組成。「實際上，」Gebru 補充道，「很多街景圖像是在清晨拍攝的，這樣可以避開交通高峯，這一定程度上形成了拍攝時間的一致性。」即使忽略交通問題，Gebru 認爲，這些圖像仍然提供了有價值的信息。

舊金山居民區的谷歌街景圖像（來源：谷歌街景）

「當駕車穿越一個地區的時候，有時候從交通密度獲得的信息和從車輛類型獲得的信息有相同的價值，」Gebru 說，「我們可以在算法中使用所有這些信息。」

Gebru 對她的新應用抱有很大的期待。她很期待不久以後，他們的新技術能夠超越人口統計的範疇，使用視覺影像分析提高對難以直接接觸的地區進行有意義的調查，比如監控二氧化碳水平和緩解交通擁堵。

李飛飛對此表示同意，「這項技術可以幫助我們理解我們社會的運轉方式、人們的需求和提高生活的方法。」

論文：Using deep learning and Google Street View to estimate the demographic makeup of neighborhoods across the United States

論文鏈接：http://www.pnas.org/content/early/2017/11/27/1700035114.abstract

摘要：美國每年需要花費超過 2 億 5000 萬美元在美國社區調查（American Community Survey，ACS）上，這是一項勞動密集型的門到門研究，測算關於種族、性別、教育、職業、失業和其它人口統計因素的統計學結果。雖然擁有綜合的數據資源，人口變化和在 ACS 中的記錄之間往往有着超過兩年的時間差。隨着數位影像學的普及和機器視覺技術的進步，自動化數據分析在實踐中越來越有望成爲 ACS 的補充。在本論文中，我們提出了一種方法，可以通過使用由谷歌街景車蒐集的 5000 萬張街景圖像，評估跨越 200 個美國城市的區域的社會經濟學特徵。使用基於深度學習的計算機視覺技術，我們決定監控和統計（谷歌街景車跨越）特定區域時遇見的所有汽車的品牌、型號和出產年份。汽車統計的數據（總共包含 2200 萬輛汽車，佔全美汽車量的 8%）可以用於準確地估計收入、種族、教育，和郵政編碼層次、選區層次的投票模式（美國的選區平均包含約 1000 個人）。得到的結果非常簡單而有力。例如，如果在駕車穿越一個城市的過程中遇到的轎車數量比皮卡的數量多很多，該城市更可能在下次總統選舉中把票投給民主黨（88% 的機率）。反之，該城市更可能投給共和黨（82% 的機率）。我們的結果表明監控人口統計數據的自動化系統具備高空間分辨率測量人口統計數據的潛能，接近實時監控的程度，可以作爲勞動密集型方法的有效補充。

文章來源：機器之心

喜歡這篇文章嗎？快分享吧！