MIT周博磊：CV本質上是一門科學研究

2017-08-14 03:09:00.0

如果你常逛知乎，相信你對周博磊並不陌生。周博磊目前是 MIT 在讀博士生；知乎深度學習（Deep Learning）、機器學習、人工智能話題優秀回答者，目前有近兩萬的知乎關注者。在 CVPR 2017 上，周博磊牽頭分別組織了一個 tutorial (http://deeplearning.csail.mit.edu/) 和 workshop (http://sunw.csail.mit.edu/)，獲得了不錯的反響。

在參會期間，我們與周博磊進行了一次交流，他分享了對計算機視覺研究的一些心得體會。

周博磊，MIT CSAIL 五年級博士生，師從 Antonio Torralba 教授。本科於 2010 年畢業於上海交通大學生物醫學工程系，2012 年在香港中文大學取得信息工程碩士學位。研究方向爲計算機視覺和機器學習。

個人主頁：http://people.csail.mit.edu/bzhou/

知乎主頁：https://www.zhihu.com/people/zhou-bo-lei/answers

爲何能辦一場爆滿的 tutorial？

CVPR 是計算機視覺領域的主流會議，物體識別和場景分析是計算機視覺裏面的核心問題，邀請到的嘉賓也是在這個方向有重要貢獻的研究者，所以我們的那個 tutorial 整個是 full house（爆滿）。邀請的嘉賓之一 Ross Girshick（Facebook 人工智能實驗室研究科學家）和我在聊的時候也提到，他也挺驚訝有這麼多人關注 object detection 的問題，而並不只侷限於 GAN 和生成模型這些比較火的領域，畢竟物體識別還是計算機視覺的一個核心問題吧。羣衆反響比較好的話，就說明這個（tutorial）還是辦得比較值得。

我邀請了愷明、Ross 還有曉剛老師，包括我自己，一起作爲演講嘉賓，這個 Tutorial 的主題包括物體識別、場景識別以及神經網絡的可解釋性問題等，都和大家的研究方向有關，也是一個比較好的結合點。他們也是研究這個領域比較領先的學者，就這樣組織起了本次 CVPR 的一個 tutorial。（友情提示：演講 slide 已經放在主頁上，視頻隨後也會放出）。

CVPR 的總體感受？

今年（CVPR）感覺華人（中國）公司挺多的，從論文角度來講，相對於理論和系統領域，計算機視覺一直也有很多華人在做研究。這次過來我更關注的是和人交流。新的 paper 很多其實在 arXiv 上面都有。主要還是和以前認識的朋友重新聚一聚，和了解過工作的研究員進一步面對面交流。

研究領域的話，其實 workshop 就是一個體現前沿趨勢的環節，比如第一天的 visual interaction（視覺交互），雖然去的人不多，但我覺得是一個比較重要的方向。物體識別和檢測目前已經做到極限了，那麼物體之間的交互可能就會是進一步的研究方向。

另外一方面是我自己馬上博士畢業了，準備找找教職和 industry lab 的研究工作，CVPR 也是一個可以瞭解這些信息的來源。

計算機視覺有何研究趨勢？

現在比較火的應該是視頻的分析和識別，包括谷歌和 Facebook 其實都投入了很大的人力在做，就像 Facebook 的機器學習組其實都招了挺多研究視頻的人，可能在 10 月份 11 月份的時候會發佈一個更大的視頻數據集。我覺得可能未來會有更多的東西可以做。

另外，因爲識別問題目前已經做得非常好了，識別的下一步可能會是什麼？下一步可能會是認知的任務，或是提升到推理的層面。比如系統識別出這裏有個茶杯，但它是基於什麼在支撐？其實是底下的桌子，這就是一個物體交互的過程，會涉及到更多認知層面的東西。

AI 研究的工程化和平民化

在做研究的過程中，我一個很深的感受是，現在的深度學習或者說 AI 的研究變得越來越工程化了，變成一種羣體作戰。這也可以解釋爲什麼現在公司其實是佔優勢的。因爲它們有很多工程師，可以幫你把平臺搭得很好，有很多研究員一塊來做研究，整個事情就是一個比較龐大的系統工程；而不像之前，可能一個人兩個人在實驗室，就可以倒騰一個東西，現在可能變得越來越系統化了。

另外一點就是變得更平民化了。現在大家的數據和代碼都很快開源，門檻變得越來越低。像本科生如果願意去學的話，其實是可以很快在一個子領域做出一些突破的。這個研究也不一定會有多大的創新，但因爲計算機視覺有太多的子任務了，所以選一個方向努力做幾個月，可能就可以在頂級會議上發一篇 poster，難度也不像五、六年前那麼大。

以後會議可能更多的是一個交流的過程吧，現在 CVPR 的接收率接近 30%，可能在五、六年前只有 23％到 24% 的樣子，而且投稿的論文也幾乎 double 了（按：CVPR 2017 年有效投稿 2620 篇，錄用 783 篇）。我第一次參加 CVPR 是在 2011 年的時候，開會的地方（Colorado Springs）就比較偏僻，參加者可能也就一千多人。

第二個是，深度學習方案確實開始 work 了，所以公司可以很快跟進並整合到自己的系統裏面。MIT 自己和三星、美國政府還有一些帶軍方背景的公司有合作，但高校一般不會和比較小的公司合作，因爲小公司可能對產出有比較快的要求，如果是做基礎研究的話，不會那麼快地看到產出。另外有些公司的需求可能也比較簡單，工程師也能做到的，就不需要放到學校裏面來做。

但現在 AI 的整個研究變得越來越實際了，工業界以前是給學校資金支持，然後找一些有想法的老師一起合作；現在更普遍的模式是工業界自己建立研究院，僱傭一些老師來工業界，並且用 engineering 和資源去支持老師的研究工作。包括像李飛飛這樣的老師加入谷歌，因爲谷歌的資源比較充足，她可以做更多的事情，如果這些都讓她實驗室裏僅有的幾個學生來做的話，其實不太現實。一方面是學生自己也要花時間學習，另外也沒有這樣的平臺或數據去從頭實踐這樣一個系統。

就學就業的選擇

我對自然界的東西比較感興趣，有點像「師法自然」這樣的，喜歡研究各種生物系統。高中的時候我其實是搞生物競賽的，後來去了上海交大，大一在生物實驗室做了一陣子，覺得不是那麼有意思。後來和侯曉迪一起玩樂隊的時候受他影響挺大的，開始上手視覺方面的研究，那時候還是 07，08 年的樣子，計算機視覺還不怎麼 work。有意思的是，當年侯曉迪推薦給我看的第一篇論文就是我現在導師（Antonio Torralba）的作品，當時也沒想到後來會選他（做導師）。大三的時候就在計算機系那邊跟着張麗清老師做 CV 的研究，之後就到香港中文大學跟着湯曉鷗老師和王曉剛老師做研究，更加堅定了做研究的想法，碩士畢業後就來 MIT 了。

未來（選擇）留在學校對我的吸引力是多方面的吧。一方面是可以更自由地去做研究，第二個是可以帶學生，一起去做這件事情，也不是每個人都想去公司，對吧。

我覺得計算機視覺本質上是一種 science（科學），怎麼發現一個好的問題是更加重要的，可解釋性其實就是一個比較有意思的問題。當時我們收集了很大的一個場景分類數據庫，訓練了一個模型後發現準確度非常高。我導師的第一篇論文就是做場景分類的，他就覺得很不可思議，爲什麼機器能夠達到人的水平。我們就開始做一些可視化的工作，後來這篇論文投到 ICLR 2015 上中了 oral，當時也就十幾篇（oral）吧，而且其他的論文都是工業界的文章，像谷歌、微軟和 Facebook 這些。所以我們這篇論文就有種讓人眼前一亮的感覺，因爲我們更像一種從科學角度去探討問題的感覺，從設計問題到實驗過程都不是那麼工程化，本質上更像是一種探索。

深度學習其實不是一個黑箱，它裏面的結構還是比較清楚，只是說大家覺得參數這麼多好像很難理解。比如我們 15 年 ICLR 的工作就說明了一個這樣的問題，當我們訓練了一個場景分類的模型之後，它裏面就學會了很多 object detector 的內容。比如說你覺得這是一個客廳，是因爲你看到裏面有電視、有沙發；那麼我們在教神經網絡識別的時候，它也是同樣檢測這張圖裏有沒有電視和沙發，然後再分類爲客廳的。這個過程實際上和人的識別過程是很類似的，我覺得以後會有更多的工作去研究這方面的問題。（http://arxiv.org/pdf/1412.6856.pdf）

我前兩個月去參加了一個叫 VSS（Vision Science）的會議，這個會議主要探討的就是做 vision science 的人是怎麼解決視覺問題的，他們就是從人腦、從認知的角度去探討問題，對我的啓發也很大。

回到 CVPR 的 tutorial 上，其實昨天愷明和 Ross 分享的都是怎麼把性能提升，怎麼去訓練一個更深的模型，這是故事的一個方面；故事的另外一方面是，這些訓練得到的優秀的表徵到底有些怎樣的含義，如何比較不同的表徵的語義性，能更好的幫助我們理解內部的運作機制，這也是我的一個研究方向。

如何成爲「知乎網紅」？

並不是想成爲「網紅」。在知乎上寫回答的一個原因是，現在誤導的信息比較多，所以我覺得有必要出來以正視聽吧，但我說的也不一定對，其實也只是把我自己的觀點表達出來，分享自己研究的一些心得體會。

MIT 其實很早就有 AI 了，有些老教授會覺得，如果把 AI 作爲一個 popular science 去宣傳的話其實挺沒必要的，這樣對研究員的壓力很大，如果老想着要做能搞大新聞的研究，也不一定是好事。

（在知乎上回答問題）這也是對我自己的一個訓練，就是怎麼把自己的想法有邏輯地表達出來。這對研究員來說其實是比較欠缺的一部分，因爲讀博的話可能就一個人埋頭深入研究，其實不知道怎麼跟別人分享自己的想法。但如果有這麼多人能覺得我寫的東西對他們有幫助的話，其實也是挺好的。

文章來源：雷鋒網

喜歡這篇文章嗎？快分享吧！