講點麥肯錫Excel基本功,從耐得住寂寞清洗數據開始

 2018-03-14 11:48:00.0

編者按:本文轉發自微信公衆號「清醒貪心記」(qtnotes),作者:Autumn QT,麥肯錫七年諮詢;36氪經授權轉載。

離開麥肯錫後,我先後在亞馬遜和兩家互聯網創業公司做市場運營工作。運營是個挺綜合的事兒,文要能做創意、談項目,理要能懂數據、做分析。

平時看團隊需要什麼,不定期組織培訓一下,最近講講用Excel做數據分析的基本功。

現在滿大街談論大數據、增長黑客、人工智能、深度學習這些高級詞兒,但Excel的應用場景也還是很豐富的。

從數量級上說,一年52周、365天、8,760小時;全國大概有600~2,000個城市;一個品牌的渠道、供應商、門店、SKU、員工等,也就幾百到幾十萬個。

Excel2010單張sheet能處理105萬行、1.6萬列數據, 基本夠用。

所以,這篇沒有高大上的概念,沒有如何建立深刻的洞察之類。跑步之前,我們先走幾步,講點基本、實用的東西。

當然,根據慣例,文末附贈幾句雞湯。: )

爲什麼要學點數據分析

這年頭,沒人會懷疑數據的重要性,但有人會問我,「爲什麼要自己做數據,不是有專業的數據團隊嗎?」

是的,大部分公司會配備專職崗位,埋點取數、儲存清洗、製作報表、開發可視化後臺,還可建立專業模型,做出深度分析。

隨着數據變得海量、工具變得專門,我們似乎沒有必要也沒有能力自己去碰數據了。

但有點數據分析的常識,首先能讓你跟數據團隊更好地溝通,拿到的原始數據或者分析結果更能滿足實際需要。

或者,人手不夠時,能擼起袖子自己上。分析經常是個邊想邊做的過程,夜深人靜的時候,自己在數據的迷宮裏逛一逛、挖一挖,效率高,也有意思。

最重要的是,數據天生「髒亂差」,很容易被歪曲、被誤讀,常識能幫助你善加分辨

舉個栗子,分析結果說80%的用戶是女生。若你有些常識,又瞭解自己的產品,就會想,咦,我們這個產品沒有身份實名認證,沒法精確判斷男生、女生,這個結論怎麼得出的呢?是否可靠呢?這樣你就可以發現、思考潛在的問題。

第一步,定義需求

Excel課程很多,但若不帶着「解決問題」的思路,把快捷鍵敲得快如閃電,也只是耍帥罷了。

數據分析,從定義需求、數據蒐集開始,來源包括外部的報告、內部的記錄,日常的報表、定製的調研等。

我見到小夥伴們提出數據需求,經常有3個層級:

1、高屋建瓴地說,我想看看這個產品、這個市場——這需要數據提供者非常清楚,到底「看什麼、怎麼看」。

2、相對清晰地說,我要這些數據——例如,我想要這些商品過去一年每月的銷售金額。

這其實還是挺模糊的——怎麼算金額,付款的還是發貨的?美元的還是人民幣的?含不含稅、含不含退貨、含不含折扣?

3、給出完整的表格和描述——規定具體指標、時間跨度、數量單位、呈現方式等。

前期思考得細緻,能避免反覆折騰、做無用功。要義是,「以終爲始」、「結果導向」地思考,我究竟要解決什麼問題。

舉個栗子,我面試一個小夥伴,簡歷上寫「去年做某促銷,活動期間帶給全平臺交易額增長15%」。

可是,這樣能說明活動成功嗎?

爲了交易額增長,付出多大代價,划算嗎?

怎麼定義的「增長」?相對平時嗎?考慮自然增長或者季節因素了嗎?

活動期後,交易額相對基線下降多少(例如有顧客在雙十一期間把一年的尿布都囤積了,銷量未必增長,只是提前了)?

比起過去類似活動、競品活動,這次的表現更好嗎?

分析並沒有那麼簡單,需要先想明白,我到底想證實或者證僞什麼、發現或者解答什麼,才決定用什麼樣的數據可以支撐。

這和Excel能力無關,卻是一切分析的邏輯起點。

第二步,提出需求

我特別反對把數據需求往微信一扔、郵件一發,就算提出了!一定要跟數據提供者約時間,「過一遍需求」。

1、交代背景,讓對方理解目標。這樣能夠發揮他們的經驗,幫助修正需求。

舉個栗子,我昨天跟行政小夥伴說,請把這個文件發順豐次日達。我也可以告訴她,因爲緊急情況,這個文件明天中午之前一定要送到北京。

明白最終意圖,她就可以發揮自己的經驗,用更恰當的方式達到目的。她問我,最近北京快遞受到限制,經常晚到,剛好有同事出差到北京,帶去可以嗎?當然可以!

2、解釋指標,讓大家的理解在同一層面上。

你會發現,人與人之間的誤解,千奇百怪。發出需求的時候,多囉嗦幾句,避免起點就是錯的。

3、瞭解數據的可得性,以及需要付出的代價。這一步非常重要,因爲找數據也要「二八法則」。

在剛剛做完的一個分析中,同事告訴我,2016年8月進行過一次系統升級。如果要此前的數據,就得大費周章,花一個星期導出整理;如果要此後的數據,幾小時就可以搞定。

那麼,我們就可以問問自己,是否一定需要此前的數據,還是過去16個月的趨勢已經基本滿足需求,當場做個決定。

第三步,原始數據整合標註

前幾天,有個小夥伴給我一頁PPT,「理財用戶移動終端偏好:小米、三星、華爲智能機」。

講點麥肯錫Excel基本功,從耐得住寂寞清洗數據開始我一看,這違背常識哈——

理財用戶有錢,有錢人很多用iPhone吧。定睛一看,數據來源是TalkingData,我很喜歡這家公司,但是它有些報告更偏重安卓設備分析,不覆蓋蘋果。

其次,這個報告截至2016年底。手機排名爭奪激烈,2017年的格局早就不是這樣。

沒有定義、來源、時間、單位的數據分析,都是耍流氓。

所以呢,拿到原始數據後,我通常會做以下動作:

1、將多項數據導入同一張Excel大表。

原始數據來源不一、形式不一,可能是Excel,txt,word文件等。整合在一起,方便處理。

2、給每一個數據sheet編號、命名,註明來源日期單位等信息。

原則就是,如果隔壁部門的同事或者6個月後你自己打開,還能看懂、使用。

(這是我做所有文件的原則,6個月後打開,還能明白自己在說什麼。)

3、接着,在第一列添加當前行號。如果後面要排序、修改,也容易重新排回原順序。

4、確認單位,調整格式(例如日期不要有亂碼)。

5、檢查一下是否有外部鏈接與公式。

有個快捷鍵,「Ctrl」鍵+「~」鍵,摁住可以暴露單元格的隱藏信息。講點麥肯錫Excel基本功,從耐得住寂寞清洗數據開始

正常看到Excel表格是這樣的:講點麥肯錫Excel基本功,從耐得住寂寞清洗數據開始

按住Ctrl~看到是這樣的,暴露裏面的公式鏈接等。講點麥肯錫Excel基本功,從耐得住寂寞清洗數據開始

如無特殊情況,避免引用外部數據與公式,容易出錯。

好啦,現在你有一個完整、清楚的Excel原始數據文件。

原始數據神聖不可侵犯。這時候,另存新版才進行操作。如果中間過程出現誤操作,可以回到原始數據表格去核對、挽救。

第四步,檢查異常、清洗數據

等我講完,你就知道,數據清洗是有多重要,否則後面的分析都建立在流沙上。

下面的動作,我會耐心對數據一列列地做完。

1、看數據全貌:

在Excel底部右側,可以看到選中那列數據的基本信息,例如計數、平均、最大、最小等。

如下圖,這列數據,共計8,378行,總額260,334元,人均31元。講點麥肯錫Excel基本功,從耐得住寂寞清洗數據開始

判斷一下,是否符合常識,有沒有問題。

那我怎麼知道對不對呢?

你不需要知道精確數值,只需要想想這個數量級是否正確——

假設平時人均都是上千元的,那麼,是數據定義錯了、單位標識錯了、數值本身錯了,還是發生了什麼狀況?

等你做完才發現數據錯漏,豈不是很胸悶。

2、是否有「=0」或者乾脆空白的數據,正常嗎?

選中整張表格數據,在菜單欄上選擇「數據」,「篩選」,然後可用每欄的篩選下拉菜單,看看這欄包含哪些數值。

講點麥肯錫Excel基本功,從耐得住寂寞清洗數據開始

我特別注意「0」或者「空白」的數據。它有可能是正常的,例如某天真是沒有人登錄或者註冊(服務器宕機),也可能數據發生缺失錯漏

如果有大量的「0」或者「空白」,需要思考對我們分析的影響。例如你想統計男生、女生各自的行爲,假設1,000個樣本點裏,有800個沒有識別男女,那麼這個結果還有代表性嗎?

另外,Excel軟件對「0」與「空白」的處理不同。例如,有10個數值,2個=0,2個缺失,6個=8。讓Excel數一數該列有幾個值,會返回「8個」。0值計入,缺失項不計入。

若計算這一列的平均值,Excel會算成,(2*0+6*8)/(2+6),返回6,因爲求8個數的平均值。既不是全部10個,也不是非零的那6個。

因此,當我們見到「0」或者「空白」時,需要追問,空白真的是空白嗎?零真的是零嗎?系統導出數據時,很可能把未曾統計標識爲零,或者反之。App當日登錄人數未曾統計,或者確實無人登錄,意義當然不同。

3、統一數值口徑。

這是個無聊而必要的髒活,大家肯定遇到過。

問HR要個員工名單,發現部門那一欄五花八門,「營銷部」也會寫成「營銷中心」、「營銷」、「市場營銷」、

問客服要個用戶問題列表,分類有「賬戶」、「帳戶」、「賬號」、「銀行賬戶」……

要先把這些收拾乾淨,否則無法愉快地進行統計了。

4、相關數據交叉檢驗。

有時候,同樣的數值會在不同數據源中多次出現。

例如,一張sheet是當天在售每種商品的銷售件數,另一張sheet是當天每個用戶各自買了幾件商品。

兩張sheet分別加總的值,應該相同。誤差也許難免,個把商品或者用戶統計不精確時有發生;但若相差太大,again,數據又出錯了。

5、用「條件格式」看數據波動,發現異常。

Excel的「條件格式」功能,可以根據數值大小,給單元格畫上彩色柱狀圖。

下圖左邊,可以發現A欄數據在2016年11月出現斷崖式下降;右邊B欄,則在2017年12月底出現峯值。講點麥肯錫Excel基本功,從耐得住寂寞清洗數據開始

在這個真實案例中,前者是當時發生統計口徑變化(不是真實波動);而後者是促銷帶來的波動。

比起導成圖表,這個功能快速簡便,可以發現錯誤,或者讓我們留下總體印象,指導後續的分析。

這5個步驟做完,明顯的數據錯誤應該可以抓出來。

尾聲:數據是種小動物

總結一下:

1、定義需求——我到底要做什麼;

2、提出需求——不能把要求簡單寫寫,郵件一發就算完;

3、整合標註——沒有時間日期單位來源的數據都是耍流氓,原始數據神聖不可侵犯;

4、檢查異常——世界比想象中錯誤百出。

你或許會說,這就尾聲啦?還沒開始分析哪。或者說,有必要在「數據清洗」上花那麼多功夫嗎?

有的。

真實世界的數據是混亂的,是因爲建設這個數據世界的人類,是不完美的。當我們試圖用抽象的數據,去闡釋我們多樣、流動、具象的世界時,人與人之間,人與機器之間,機器與機器之間,有種種的誤解與偏差。

雖然隔着屏幕,敲着鍵盤,我老喜歡用的動詞是「摸」,老跟自己的團隊說,要親手去「摸一摸」數據。

它們,並不像塑料玩具,是工業化的產品,整齊、冰涼、規整。它們更像小動物,毛茸茸的、有點脾氣,在我們的熟悉、撫觸中,慢慢地馴服。

所以,數據分析,聽起來是非常炫酷的事,但是,和所有其他事一樣,許多基本的工作,既不炫酷,也不輕鬆。

於是,也和所有其他事一樣,做得好的人,是能接受其中不夠炫酷的部分的人。安心趟過千萬個坑,一步一步向前走。

See it through,and do it right。

所謂professional,就是這個意思。

文章來源:36kr