人人都能用的深度學習:當前三大自動化深度學習平臺簡介

 2018-04-28 17:02:57.0

深度學習技術往往比較複雜,從頭開發的難度較大,但現在有一些公司提供了能幫助開發者輕鬆使用深度學習的自動化深度學習(ADL)平臺,比如微軟的 CustomVision.AI、谷歌的 Cloud AutoML、OneClick.AI。Data Science Central 近日發文對這三個平臺進行了比較和盤點,我們對該文做了編譯介紹。

阻礙我們使用深度學習方法的原因有很多,其中最主要的是深度學習方法很複雜和困難。

數據科學領域有一部分研究者和開發者已經選擇學習這些新技術了,但在預測性和規範性建模的問題類型和技術方面(我們 90% 的工作就是這些),學習深度學習技術卻與我們的大部分工作方向背道而馳。

至少在圖像、視頻、文本和語音識別與處理領域,人工智能(AI)已經成爲了每個人的口頭禪,但尋找有資格執行你的項目的數據科學家仍然很困難。

實際上我列舉的圖像、視頻、文本和語音應用只是深度學習應用的一小部分。儘管這些是最爲人所知且可能是最明顯的應用,但深度神經網絡(DNN)也能出色地預測時序數據以及解決複雜的傳統的消費傾向問題。

去年 12 月份我在寫數據科學 2018 年預測時,我注意到 Gartner 說在 2018 年 DNN 會成爲 80% 數據科學家的標準工具組件。我的預測是:儘管能實現這種簡潔性的第一家提供商肯定會獲得豐厚的回報,但絕不可能是在 2018 年。看來我預測錯了。

2018 年纔剛過去 4 個月,我就看到了三種旨在簡化深度學習以讓任何人(至少是任何數據科學家)都能使用該技術的不同平臺。

最低要求

所有的主要公司和幾家小公司都爲執行 CNN 或 RNN/LSTM 提供了極大簡化的工具,但這仍然需要實驗性地人工調整層的類型和數量、連接方式、節點和其它超參數(這些設置往往會影響最初的成功)。

我們希望有真正一鍵式的應用,讓一般的數據科學家或甚至開發者都能成功構建圖像或文本分類器。

實現這一目標的最快方法是通過遷移學習。在深度學習領域,遷移學習是指將之前成功構建的大型的、複雜的 CNN 或 RNN/LSTM 模型在新的更有限的數據集上進行訓練。

基本上而言,常用於圖像分類的遷移學習會將更復雜的模型歸納爲更少或之前訓練過的類別。遷移學習不能創造原模型中沒有的分類,但它可以學習創造子集或彙總類別。

其優勢在於常常會執行超參數調節,這樣你就知道模型將會訓練。更重要的是,你只需不到 1 個小時時間,僅用幾百張有標註圖像就能構建一個成功的遷移模型。

但是,自動化深度學習的真正目標是完全自動化的超參數調節,而不是遷移學習。你在下面會讀到,有的努力還在進行中,而有的則宣稱已經實現了這一目標。

微軟 CustomVision.AI

鏈接:https://www.customvision.ai 

2017 年底,微軟在 Microsoft Cognitive Services(微軟認知服務)的旗幟下推出了一系列極大簡化後的深度學習功能,涵蓋圖像、視頻、文本和語音等各個領域。今年 1 月,他們又推出了完全自動化的平臺 Microsoft Custom Vision Services(微軟定製視覺服務)。

這個平臺只是圖像分類器,並且還向用戶承諾只需少量圖像就能使用微軟的巨大的已有大型、複雜、多圖像分類器庫創建穩健的 CNN 遷移模型。

使用這個平臺非常簡單。只需將你的圖像拖放到這個平臺上然後繼續即可。你需要一個即付即用的 Azure 帳戶,基本的技術支持是每個月 29 美元。模型訓練的時間不是明確的,但因爲是遷移學習,所以應該會很快,因此也不會太貴(但也不是免費的)。

在項目設置過程中,你會被要求確定一個你的圖像集將會遷移學習的一般域,目前可選的有:

1. 一般(General)

2. 食物(Food)

3. 地標(Landmarks)

4. 零售(Retail)

5. 成人(Adult)

6. 一般(緊湊)

7. 地標(緊湊)

8. 零售(緊湊)

儘管所有這些模型都可以在訓練後通過 restful API 運行,但最後三個類別(標記有「緊湊」)可以導出到任何 iOS 或安卓邊緣設備上離線運行。在 iOS 11 上導出的格式是 CoreML 格式;在安卓設備上是 TensorFlow 格式。這應該能吸引可能不是數據科學家的應用開發者爲他們的應用添加即時圖像分類功能。

可以預見微軟未來還會盡快地推出更復雜的功能。

谷歌 Cloud AutoML

鏈接:https://cloud.google.com/automl 

同樣在今年 1 月,谷歌也宣佈了其類似的項目 Cloud AutoML。這個平臺目前處於 alpha 開發階段,需要邀請才能參與。

和微軟一樣,這個服務使用了谷歌自己預構建的複雜 CNN 分類器的遷移學習。他們推薦至少給每個標籤提供 100 張圖像來遷移學習。

目前還不清楚該平臺在正式發佈時會有哪些圖像類別,但用戶截屏顯示至少有一般、人臉、logo、地標,也許還有其它一些。從谷歌分享的截圖看,這些模型的訓練時間大約爲 20 分鐘到幾個小時。

根據我們可以找到的數據,這個平臺的使用方式應該是通過 API。沒有什麼地方提到了導出代碼離線使用的情況。早期的 alpha 用戶包括迪斯尼公司和 Urban Outfitters。

可以預見很多新用戶都沒有有標註的數據,谷歌提供了它自己的人工標註服務,但要額外收費。

除了遷移學習之外,包括谷歌在內的主要公司都在推動自動化 CNN 和 RNN 優化調節的自動化方案。人工開發的模型是當前的常態,也是需要如此多不成功的迭代的原因。

谷歌將這種下一代技術稱爲 Learn2Learn。當前他們在實驗用 RNN 來優化層、層類型、節點、連接和其它超參數。因爲這基本上是非常高速的隨機搜索,所以計算資源可能非常高。

接下來要做的是用進化算法來做同樣的事情,這在時間和計算上都會高效得多。在最近的演示中,谷歌研究者展示了這種方法的優良結果,但他們仍然光是在優化上就花了 3 到 10 天。

OneClick.AI

鏈接:https://www.oneclick.ai

OneClick.AI 是 2017 年底出現在市場上的一個自動化機器學習(AML)平臺,其中既包括傳統的算法,也包括深度學習算法。

OneClick.AI 光是 AML 方面也值得一看了,其中包括數據融合、準備、特徵工程、特徵選擇,後面還有並行的傳統多模型,以確定其中最佳的模型。

但是,OneClick 的不同之處在於其既有圖像算法,也有文本算法;使用的方法既有遷移學習,也有完全自動化的超參數調節來重新修改圖像和文本深度學習模型。

不同於谷歌和微軟,OneClick 在圖像和文本上都準備好了。除此之外,他們還將 DNN 與傳統算法組合到了一起,並且使用了 DNN 來做預測。

預測是使用 DNN 方面一個已經探索過的領域,但事實表明其表現能輕鬆超過 ARIMA 和 ARIMAX 等時序數據預測器。

對於這樣一個提供瞭如此複雜的工具和技術的平臺而言,它保持了「一鍵出模型」的簡單易用性——我認爲這是自動化機器學習的最低要求,但也包括自動化深度學習。

他們用於優化深度學習模型的方法是專有的,但該公司的創始人兼 CEO Yuan Shen 描述說他們是用 AI 訓練 AI——可能是一種深度學習優化方法。

哪個平臺更好?

目前還沒有什麼標準可以評估哪個平臺更好,但 OneClick.AI 提供了一個案例。

在今年初的一個黑客馬拉松上,該團隊測試比較了 OneClick 和微軟的 CustomVision(谷歌的 AutoML 當時還不可用)。他們測試了兩個圖像分類問題。標記符合以下描述的照片:

奔跑的馬或喝水的馬: 

裸照:

標記馬的任務是一個多標籤分類任務,裸照檢測是一個二元分類任務。對於每個任務,他們都使用了 20 張訓練圖像以及另外 20 張測試圖像。

標記馬的準確度:90%(OneClick.ai)vs. 75%(微軟 Custom Vision)

裸照檢測準確度:95%(OneClick.ai)vs. 50%(微軟 Custom Vision)

因爲這個結果僅使用了遷移學習方面非常少量的樣本,所以不具有統計意義。但還是能看到差別。

這是遷移學習方面的比較。我們很有興趣瞭解自動化模型優化方面的比較。OneClick 準備好了。谷歌應該很快就會跟進。

你可能想問亞馬遜的情況?在我們的調研中沒看到亞馬遜在自動化深度學習方面的計劃,但也不會落後太遠。

原文鏈接:https://www.datasciencecentral.com/profiles/blogs/automated-deep-learning-so-simple-anyone-can-do-it

文章來源:機器之心