谷歌「雙十一」也放大招:Colab上可以免費使用P100 GPU了

 2019-11-11 18:00:50.0

近日,Reddit 上有開發者發現,他的 Colab 環境在執行訓練任務時不太一樣了。在訓練任務中,Colab 顯示正在使用的設備是英偉達的特斯拉 P100 GPU,版本是 PCIE 16G 內存版。

該網友在 Reddit 上發帖詢問後,Colab 可使用免費 P100 GPU 的消息得到了確認。

之前,機器之心曾介紹過如何使用 Colab 上的算力資源。在今年 4 月份,Colab 將 GPU 從古董級別的 K80 升級到了 Tesla T4,這一種圖靈架構的新 GPU 非常適合做低精度的推斷,訓練也比 K80 快了很多。如今,Colab 再一次開放 P100,今年已經是兩次硬件升級了。

機器之心也立即驗證了一下,當我們選擇採用 GPU 加速後,打印出來的確實是 Tesla P100 GPU。

P100 到底有多強

T4 在深度學習計算中能夠很好地平衡訓練和推理之間的需求,成本相比 V100 也低很多。但是本次 Colab 將算力升級到 P100,可以說是相當頂尖的 GPU 了。

更何況,這些都是免費的。現在,如果要正常使用這些算力,恐怕也不是一個小數目。如上所示,機器之心從谷歌雲官網上查到了現在 GPU 算力的價格。表中,T4 需要的每小時 1.03 美元/訓練單元。而 P100 則高達 1.6 美元每小時/訓練單元。

看起來沒省多少錢?要知道,用一個 P100 GPU 在 ImageNet 上訓練一個 ResNet-50 就要差不多一天多的時間(參考 DAWNBench)。如果不中斷的話,這也需要 40 多美元,在 Colab 上,這筆錢就可以省掉了。

P100 的算力究竟有多強?可以說,這是目前深度學習領域相當有性價比的一款 GPU 了。從 2017 年發佈以來,P100 已經成爲了很多科研機構和企業進行模型訓練的標配。相比於 K80 等 GPU,P100 在性能上有明顯優勢。

英偉達官網上 K80 和 P100 的性能對比。

P100 的相關參數。

儘管 T4 相比 K80 是個不小的進步,但是 P100 依然比前兩者都要強很多,這足以說明 Colab 本次的福利相當值了。

Colab,遠比你想象中的要強

很多開發者在使用 Colab 時,總會抱怨時不時的終止,抱怨每一次結束後所有包和文件都會刪除。但實際上,除了科學上網,其它很多問題都能解決,谷歌的 Colab 遠比我們想象的要強。首先不說它對各種框架的支持,它在 TPU 和 GPU 等各種硬件上也提供了很多免費資源,更不用說與 Google Drive 聯動而保存各種數據了。

首先最大一個問題是 Colab 會斷,但小編用過很多次,差不多每次只要保證頁面不關閉,連續運行十多個小時是沒問題的。按照我們的經驗,最好是在北京時間上午 9 點多開始運行,因爲這個時候北美剛過凌晨 12 點,連續運行時間更長一些。像 T4 或 P100 這樣的 GPU,連續運行 10 多個小時已經是很划算了,即使複雜的模型也能得到初步訓練。

那麼如果斷了呢?這就要考慮加載 Google Drive 了。Colab 非常好的一點是能與谷歌雲硬盤互動,也就是說等訓練一些 Epoch 後,可以將模型保存在雲端硬盤,這樣就能做到持久化訓練。每當 Colab 斷了時,我們可以從雲端硬盤讀取保存的模型,並繼續訓練。

如上兩行代碼可以將谷歌雲硬盤加載到遠程實例的「content/drive」目錄下,後面各種模型操作與數據集操作都可以在這個目錄下完成,即使 Colab 斷了連接,所有操作的內容也會保存在谷歌雲盤。

只要搞定上面兩個小技巧,Colab 的實用性就很強了。當然,如果讀者發現分配的 GPU 是 K80,你可以重新啓動幾次 Colab,即釋放內存和本地文件的重新啓動,每一次重啓都會重新分配 GPU 硬件,你可以「等到」P100。

除了最主要的框架和算力支持,Colab 還有很多更有意思的功能。比如說用個魔術符號「%」調用 TensorBoard、黑暗系代碼主題、文件瀏覽和操作系統,以及最近才更新的 Pandas DataFrame 可視化操作。

Colab 的表格數據擴展,它允許對 Pandas 的 DataFrame 進行可視化的排序和過濾等操作。

隨着 Colab 支持越來越強大的計算力、提供越來越多的功能和組件,對於很難獲得足夠算力的初學者與學生,它將會是非常好的一個開放性工具。

參考鏈接:https://www.reddit.com/r/MachineLearning/comments/duds5d/d_colab_has_p100_gpus/

文章來源:機器之心