關於gcForest這篇論文 我們請教了周志華教授以下幾個問題

 2017-03-06 19:09:00.0

雷鋒網【AI科技評論】按:3月3日下午,AI科技評論參加了由中國人工智能學會(CAAI)主辦的【人工智能前沿講習班】,本期的主題【機器學習前沿】,由南京大學周志華教授擔任學術主任。周志華教授在講習班開場做了關於前沿講習班的相關介紹,並在會後接受了雷鋒網【AI科技評論】關於其最新gcForest論文的採訪,整理編輯如下。

1. 周老師那篇arXiv的文章還是在強調「深度」,並沒有完全否定深度學習?您只是提出了另一種做深的方法?使得很多參數更穩定魯棒,也是要依靠大數據。請問這麼想對不對?

主要思想是,現在大家談到深度學習就覺得它就等於深度神經網絡。我們認爲解決複雜問題把模型變深可能是有必要的,但是深度學習應該不只是深度神經網絡,還可以有其他形式,與神經網絡相比,其他形式也許有更好的性質。

2. 昨天田淵棟老師在知乎上提到一點, Multi-Grained Scanning這部分非常像1D和2D Convolution。「另外實驗還只是在小規模數據集上做的,期待CIFAR甚至是ImageNet的結果。深度學習這裏也有一直在提但是一直效果不怎麼好的Layer-by-Layer訓練的思路,如果這個思路能在大數據集上做好,那確實是大突破了。」

您如何看待田老師說的「還只是在小規模數據集上做的,期待CIFAR甚至是ImageNet的結果」這個說法的?

我們更關心的是這件事可以怎麼去做。以前大家不知道這個事情可以這樣去做,我們現在把這種可能性展示出來,這是基礎研究所追求的。 新東西出來的時候,性能不是很重要,因爲很多方面都沒有優化。 

性能本身並不是我們現在很關心的事情,因爲改進的空間很大,可以有各種途徑去提高,這都是後面的事情了。 在大數據上做需要更大的資源、更多人力、物力,這是我們暫時所不具備的。工業界會更關注性能,我們也希望看看更大的資源來了之後,能做到什麼樣程度。

3. 周老師您在CNCC2016上,指出機器學習的近期目標是需要利用更多的計算資源及更多的數據。您新近提出的gcForest如何實現這一點?

要做大數據、複雜問題,肯定要用更強大的計算資源。現在有一些計算架構是非常適合這樣的模型的。有了更大的資源之後,我們也很好奇它到底能做到什麼程度。

4. gcForest 的參數少且結構靈活,發揮集成學習的特長。但gcForest如何在層數增長與問題複雜程度取得平衡?

我們認爲現在這個工作是比較原創的,所以有很多方面需要探討,它並不成熟,只是說這條路現在可以走。至於能走多遠,還要看下面的探索。

5. 有知乎網友表示: 「gcForest最讓我吃驚的地方在於,僅僅是每層四個森林就能習得兼具accuracy和diversity的擴充特徵。」 請問gcForest如何一邊保證其accuracy的同時,還一邊增加diversity的?

我們中間的一些設計是出於這樣的考慮,例如引進完全隨機樹。現在文章裏用四個森林,並不是說只能用四個。有更多資源以後就可以探索使用更多更大的森林會怎麼樣,只不過我們現在承擔不起那個資源量。

6. 關於這個講習班,周老師您可以再跟大家說兩句嗎?

這個講習班是挺好的一個活動。人工智能前沿講習班是中國人工智能學會發起的,第一期講深度學習,第二期希望大家知道機器學習裏不僅有深度學習,所以準備的這十位專家的報告,是希望覆蓋機器學習的更多的方面。我想,這樣的活動是很好的,來參加的人數之多出乎想象,希望能夠讓大家對機器學習都有更多的瞭解。

7. 附周志華教授在*人工智能前沿講習班-機器學習前沿*開場講話:

各位老師,各位同學,大家下午好!我是南京大學周志華,首先歡迎大家參加這個講習班,非常希望大家能夠在兩天多的時間裏面真正的得到一些收穫。我首先表示對大家的歡迎,我們就一起鼓掌吧。

我想簡單跟大家說一說這個講習班的緣由。大家都知道人工智能學會搞過很多活動,最近人工智能特別熱,中國人工智能學會在這個方面有非常好的資源,譚鐵牛院士是人工智能學會的副理事長,在他的組織下,人工智能學會就開始發起這個《人工智能前沿講習班》。第一期講習班就是去年的12月份,主題就是「深度學習」,第二次講習班是譚鐵牛院士委託我來主持,我看第一次已經是深度學習了,全部報告都是跟深度學習有關的,所以第二次題目定爲「機器學習前沿」,希望儘可能讓大家接觸機器學習各方面的內容。現在雖然深度學習很熱,但是我們這期講習班裏深度學習雖然有涉及到的,但不是特別多,一個原因是第一期講習班專門就是講深度學習的。

第二次題目又定在「機器學習前沿」,我希望儘可能讓大家接觸機器學習各方面的內容。現在雖然深度學習很熱,但是我們這期講習班裏深度學習雖然有涉及到的,但不是特別多,這主要是兩個原因,我剛纔說的,第一,第一期講習班專門就是講深度學習的。第二,我還是覺得深度學習其實只是機器學習很小的範疇,機器學習裏面有更多的東西,希望大家有更全面的瞭解,所以這期是這樣的。

特別感謝十位專家先後給大家做報告,他們都很忙,非常感謝他們接受邀請做這件事。最初的時候我的設想是,給每位專家比較多的時間。這樣能把一個問題講的更透徹,這樣可能只能請五位左右的專家,後來學會希望請更多的人,希望請十位專家,我想他們的想法是說,能夠在更集中的時間裏面讓大家看到更多的在我們國內機器學習比較活躍的學者,所以最後10位專家每個人講2個小時的時間。因爲2個小時比較短,所以中間有沒有休息就由各位講者自己來控制了,如果大家覺得聽起來並不辛苦,而且講者覺得有更多的東西希望分享給大家,中間也可以不休息,中間休息5分鐘也可以,由各位講者來控制。

另外,特別感謝有這麼多的老師和同學來參加這個講習班,除了這個講習班講課的時候,其他很多專家到場之後如果大家有興趣跟他們交流,也可以在中間休息的時候和他們交流,我想我們各位專家都會非常高興把他們的一些知道的東西分享給大家。

我就簡單的講這麼多,最後,再次感謝大家的支持,感謝我們各位講者,感謝我們人工智能學會的支持,下面把時間留給我們今天高水平的講者。

……

PS:講習班講師相關內容報道請關注雷鋒網(公衆號:雷鋒網)【AI科技評論】接下來的現場報道。

關於gcForest這篇論文    我們請教了周志華教授以下幾個問題

文章來源:雷鋒網