人人都能用的深度學習：當前三大自動化深度學習平臺簡介

2018-04-28 17:02:57.0

深度學習技術往往比較複雜，從頭開發的難度較大，但現在有一些公司提供了能幫助開發者輕鬆使用深度學習的自動化深度學習（ADL）平臺，比如微軟的 CustomVision.AI、谷歌的 Cloud AutoML、OneClick.AI。Data Science Central 近日發文對這三個平臺進行了比較和盤點，我們對該文做了編譯介紹。

阻礙我們使用深度學習方法的原因有很多，其中最主要的是深度學習方法很複雜和困難。

數據科學領域有一部分研究者和開發者已經選擇學習這些新技術了，但在預測性和規範性建模的問題類型和技術方面（我們 90% 的工作就是這些），學習深度學習技術卻與我們的大部分工作方向背道而馳。

至少在圖像、視頻、文本和語音識別與處理領域，人工智能（AI）已經成爲了每個人的口頭禪，但尋找有資格執行你的項目的數據科學家仍然很困難。

實際上我列舉的圖像、視頻、文本和語音應用只是深度學習應用的一小部分。儘管這些是最爲人所知且可能是最明顯的應用，但深度神經網絡（DNN）也能出色地預測時序數據以及解決複雜的傳統的消費傾向問題。

去年 12 月份我在寫數據科學 2018 年預測時，我注意到 Gartner 說在 2018 年 DNN 會成爲 80% 數據科學家的標準工具組件。我的預測是：儘管能實現這種簡潔性的第一家提供商肯定會獲得豐厚的回報，但絕不可能是在 2018 年。看來我預測錯了。

2018 年纔剛過去 4 個月，我就看到了三種旨在簡化深度學習以讓任何人（至少是任何數據科學家）都能使用該技術的不同平臺。

最低要求

所有的主要公司和幾家小公司都爲執行 CNN 或 RNN/LSTM 提供了極大簡化的工具，但這仍然需要實驗性地人工調整層的類型和數量、連接方式、節點和其它超參數（這些設置往往會影響最初的成功）。

我們希望有真正一鍵式的應用，讓一般的數據科學家或甚至開發者都能成功構建圖像或文本分類器。

實現這一目標的最快方法是通過遷移學習。在深度學習領域，遷移學習是指將之前成功構建的大型的、複雜的 CNN 或 RNN/LSTM 模型在新的更有限的數據集上進行訓練。

基本上而言，常用於圖像分類的遷移學習會將更復雜的模型歸納爲更少或之前訓練過的類別。遷移學習不能創造原模型中沒有的分類，但它可以學習創造子集或彙總類別。

其優勢在於常常會執行超參數調節，這樣你就知道模型將會訓練。更重要的是，你只需不到 1 個小時時間，僅用幾百張有標註圖像就能構建一個成功的遷移模型。

但是，自動化深度學習的真正目標是完全自動化的超參數調節，而不是遷移學習。你在下面會讀到，有的努力還在進行中，而有的則宣稱已經實現了這一目標。

微軟 CustomVision.AI

鏈接：https://www.customvision.ai

2017 年底，微軟在 Microsoft Cognitive Services（微軟認知服務）的旗幟下推出了一系列極大簡化後的深度學習功能，涵蓋圖像、視頻、文本和語音等各個領域。今年 1 月，他們又推出了完全自動化的平臺 Microsoft Custom Vision Services（微軟定製視覺服務）。

這個平臺只是圖像分類器，並且還向用戶承諾只需少量圖像就能使用微軟的巨大的已有大型、複雜、多圖像分類器庫創建穩健的 CNN 遷移模型。

使用這個平臺非常簡單。只需將你的圖像拖放到這個平臺上然後繼續即可。你需要一個即付即用的 Azure 帳戶，基本的技術支持是每個月 29 美元。模型訓練的時間不是明確的，但因爲是遷移學習，所以應該會很快，因此也不會太貴（但也不是免費的）。

在項目設置過程中，你會被要求確定一個你的圖像集將會遷移學習的一般域，目前可選的有：

1. 一般（General）

2. 食物（Food）

3. 地標（Landmarks）

4. 零售（Retail）

5. 成人（Adult）

6. 一般（緊湊）

7. 地標（緊湊）

8. 零售（緊湊）

儘管所有這些模型都可以在訓練後通過 restful API 運行，但最後三個類別（標記有「緊湊」）可以導出到任何 iOS 或安卓邊緣設備上離線運行。在 iOS 11 上導出的格式是 CoreML 格式；在安卓設備上是 TensorFlow 格式。這應該能吸引可能不是數據科學家的應用開發者爲他們的應用添加即時圖像分類功能。

可以預見微軟未來還會盡快地推出更復雜的功能。

谷歌 Cloud AutoML

鏈接：https://cloud.google.com/automl

同樣在今年 1 月，谷歌也宣佈了其類似的項目 Cloud AutoML。這個平臺目前處於 alpha 開發階段，需要邀請才能參與。

和微軟一樣，這個服務使用了谷歌自己預構建的複雜 CNN 分類器的遷移學習。他們推薦至少給每個標籤提供 100 張圖像來遷移學習。