十個例子，教你用統計學方法高效完成機器學習項目

2018-07-26 14:18:00.0

原標題 10 Examples of How to Use Statistical Methods in a Machine Learning Project ，作者爲 Jason Brownlee 。

統計學和機器學習是兩個聯繫特別緊密的領域。

事實上，這兩者的界限有時候非常模糊。然而有一些明顯屬於統計學領域的方法，不僅可用於機器學習的項目，並且極具價值。

公平地說，需要統計學方法來有效地完成機器學習預測建模項目。

在這篇博客中，你會了解到一些能在預測模型問題的關鍵步驟中發揮作用的統計學方法的具體例子。

在閱讀完這篇博客後，你會了解：

探索性的數據分析、數據歸納和數據可視化有助於構建預測模型以及更好地理解數據。
統計學方法可以用來清洗和準備建模要用的數據。
統計假設檢驗和估計統計可以幫助進行模型選擇，並展示最終模型的技能和預測結果。

讓我們開始吧。

（在應用機器學習項目中使用統計學方法的十個例子。圖片來自於 chenutis，版權歸其所有。）

概述

在這篇博客中，我們將會着重講一下如何在應用機器學習項目中使用統計學方法的十個例子。

這將證明統計學知識對於成功解決預測建模問題至關重要。

問題架構
數據理解
數據清洗
數據選擇
數據準備
模型評估
模型配置
模型選擇
模型表達
模型預測

1. 問題架構

也許預測模型問題中最困難的一點就是問題的架構。

這包括了問題類型的選擇，例如是迴歸還是分類，也許還有這個問題的輸入和輸出的結構及類型。

問題的架構並不是一直都很清晰，對於某個領域的新手，可能需要對這個領域中的觀察值進行一些深入探索。

而對於這個領域的專家，他們可能會以墨守成規的角度去看問題，從而受困其中，他們也需要從多角度去思考數據，纔能有所收穫。

統計方法在問題的架構階段有助於對數據的探索，其中包括：

探索性的數據分析。爲了從數據中探索到特別的觀點，從而進行的彙總和可視化。
數據挖掘。自動探索數據間的結構關係和模式。

2. 數據理解

數據理解意思是對變量的分佈和變量之間的關係有一個更詳細的理解。

這些知識其中一部分來自於這個領域的專業知識，或者需要專業知識去解釋。然而，專家和新手都會從處理領域內的真實觀察值中獲益。

用在理解數據的統計學模型的兩類主流分支是：

彙總統計。使用統計數值來彙總變量間的分佈和關係的方法。
數據可視化。總結變量間的分佈和關係的方法需要用到可視化的方法，例如：圖表，繪圖和圖形。

3. 數據清洗

一個領域中的觀察值往往存在些瑕疵。

雖然數據是數字化的，但存在一些過程會降低數據的精確性，反過來，後續用到數據的過程及模型也會受其影響。

例如：

數據破壞。
數據錯誤。
數據損失。

識別和修復這些問題數據的過程也叫做數據清洗。

統計方法應用於數據清洗中例子有：

異常點檢測。在數據分佈中識別出離期望值很遠的觀察值的方法。
數據填補。修復或填補觀察值中損壞或缺失數據的方法。

4. 數據選擇

在建模時，不是所有觀察值或所有變量都是相關的。

減小這些元素的數據範圍的操作對於做出預測值是很有用的，這個過程叫做數據選擇。

應用在數據選擇的兩種統計學方法：

數據採樣。從較大的數據集中系統化創建較小的代表性樣本的方法。
特徵選擇。自動識別與結果變量更有相關性的變量的方法。

5. 數據準備

數據一般不會直接拿來建模。

爲了改變數據的形狀或結構，使它更適用於選定的問題架構或學習算法，需要對數據進行必要的轉化。

數據準備也會用到統計模型，例如：

縮放。例如標準化和規範化。
編碼。例如整數編碼和獨熱編碼。
變換。例如 Box-Cox 變換那樣的次方轉換。

6. 模型評估

預測模型問題的一個重要部分是對學習方法進行評估。

對模型的能力的評估主要是對未經過訓練的數據進行預測。

通常，訓練過程和評估預測模型的規劃過程叫作實驗設計，這是統計方法的一個子領域。

實驗設計。設計系統化的實驗來比較獨立的變量對結果影響的方法，比如對比預測的精度來選擇機器學習算法。

作爲實現實驗設計的一部分，爲了對可利用的數據做最合理的利用同時也爲了評估模型的能力，統計學方法被用來重採樣一個數據集。這兩個目的代表了統計模型的子領域。

重採樣方法。爲了訓練和評估預測模型而將數據集系統化分出子集的方法。

7. 模型配置

給定的機器學習算法通常有一套使學習方法能夠適應特定問題的超參數。

超參數的配置通常是經驗性的，而不是由分析得出的。這需要大量的實驗，以評估不同超參數值對模型性能的影響。

兩種統計學的子領域的方法可以用於對不同超參數配置產生的結果進行解釋和比較，它們是：

統計假設檢驗。根據對結果的假設或期望值，對觀察到的結果出現概率進行量化的方法。（提出使用臨界值和 p 值）
估計統計。使用置信區間去量化一個結果的不確定性的方法。

8. 模型選擇

給定一個預測建模問題，在衆多機器學習算法中可能有一個算法最適合該問題。

選擇一種方法作爲解決方案的過程稱爲模型選擇。

這可能涉及到項目參與者的自身條件以及用於評估問題的方法的估計技能能否對其給出詳細解釋。

與模型配置一樣，可以使用兩類統計方法來解釋不同模型的估計技能，並用於模型選擇。他們是：

統計假設檢驗。根據對結果的假設或期望值，對觀察到的結果出現概率進行量化的方法。（提出使用臨界值和 p 值）
估計統計。使用置信區間去量化一個結果的不確定性的方法。

9. 模型表示

一旦最終模型訓練完成，可以在部署其對真實數據進行預測前先展示給相關人員查看。

展示最終模型的一個環節包括展示模型的估計技能。

估計統計領域中的方法可以通過容忍區間和置信區間對機器學習模型的評估能力的不確定性進行量化。

估計統計。使用置信區間去量化一個結果的不確定性的方法。

10. 模型預測

最後，我們可以使用最終的模型來對我們不知道其輸出的新數據進行預測。

作爲預測的一部分，量化預測的置信度非常重要。

就像模型表示的過程一樣，我們可以使用估計統計領域的方法來量化這種不確定性，例如置信區間和預測區間。

估計統計。使用置信區間去量化一個結果的不確定性的方法。

總結

在本教程中，你已經瞭解了統計方法在整個預測建模項目過程中的重要性。

具體來講你學到了：

探索性的數據分析、數據歸納和數據可視化有助於構建預測模型以及更好地理解數據。
統計學方法可以用來清洗和準備建模要用的數據。
統計假設檢驗和估計統計可以幫助進行模型選擇，並展示最終模型的技能和預測結果。

原文鏈接：https://machinelearningmastery.com/statistical-methods-in-an-applied-machine-learning-project/

文章來源：雷鋒網

喜歡這篇文章嗎？快分享吧！