9102年了,你還不知道怎麼做數據科學家嗎?

 2019-03-04 10:53:00.0

按:本文作者 Thomas Nield,是美國西南航空公司的商務顧問,著有《Getting Started with SQL (O'Reilly)》等書,是一位經驗豐富的數據科學家。他對於自己從事多年的職業有着非常深入的洞察和思考,日前,他在 Towards Data Science 網站上發表了一篇帶着點諷刺色彩的對話體文章,在爲數據科學新入門者提出建議的同時,也道出了許多人對於「數據科學」這個概念的困惑(例如,當下不少人很容易將數據科學與其他相類似的學科搞混)。文章發佈後,不少讀者在評論區感慨道:「原來我不是一個人!」

9102年了,你還不知道怎麼做數據科學家嗎?

本文由一位想通過自學數據科學成爲數據科學家的入門者和一位真正的數據科學家的對話組成。在對話中,數據科學家向入門者提出了一大堆建議,然而入門者在聽取這些建議後最終得出的結論竟然是——「我還是把時間花在別的事情上吧」,諷刺意味顯而易見。而其中延展出了關於數據科學家的工作內容與其他數據相關職位的工作內容的區別等問題,更是折射出了大多數人都無法很好地將「數據科學」與其他學科區分開來——這種困惑感實質上也是入門者在整個對話過程中都呈現一種「霧裏看花」狀態的原因。本文整體文風詼諧有趣,對話稍帶點諷刺意味,其中暴露的問題也發人深省。同時,對於那些想進入數據科學領域或正在從事數據科學相關工作的讀者來說,這篇文章也是一篇非常值得一讀的乾貨文。以下是中文的編譯。

我所寫的這篇文章受啓發於 2016 年的一篇文章《How it feels to learn JavaScript in 2016》。本文是一篇「諷刺作品」,因此對於其中的一些言論或建議,希望大家不要太較真。文中所提到的建議有些是好的,有些卻是非常糟糕的,很大程度上就跟大家對數據科學的定義一樣,它們都只是我的個人觀點。

正文內容

據說你就是那個人約我見面的人。非常感謝,也感謝你請我喝咖啡。你瞭解數據科學是嗎?

是的,我瞭解。我去年加入了 PyData 和 O'Reilly Strata,並且開發了一些模型。

是的,我聽說你上週給我們公司做了一個非常好的關於機器學習的展示。我同事說這個展示非常有用。

貓和狗圖像的分類器嗎?是的,感謝你們的肯定。

無論如何,我已經下決心要重視數據科學、人工智能以及機器學習了。我擔任了多年的分析師和顧問,工作內容就是在 Excel 工作簿中處理數字、做數據透視表和圖表。不過,我一直都有關注「 AI 將替代人類工作」(文章閱讀地址:https://thenewstack.io/ai-starts-taking-white-collar-jobs/之類的文章,據說連我這種白領也難以倖免。

我在谷歌上搜索「怎樣成爲一位數據科學家」時找到了這張「路線圖」,還了解到了什麼是存在主義危機。讓我問你這個問題:我如果想成爲一位數據科學家,是否需要掌握這張圖中的所有東西?

9102年了,你還不知道怎麼做數據科學家嗎?

這是你想成爲一位自信的數據科學家所要掌握的所有東西(2013 年)。完全是可實現的,不是嗎?(圖源:Swami Chandrasekaran,http://nirvacana.com/thoughts/2013/07/08/becoming-a-data-scientist/

簡而言之,不需要。沒有人使用這張「路線圖」了。這張圖是 2013 年繪製出來的,裏面甚至都沒有包括 TensorFlow,你完全可以在這張圖中找出幾種路線。我認爲在當時那個時間,「數據科學家」這個概念就已經變得更加細分也更加專業化了。針對每個細分方向的「數據科學家」採用不同的學習方式可能會更好些。

好的,你說的這些讓我心裏好受了些。所以我是否應該回學校學習專業知識呢?我從某些地方瞭解到許多數據科學家都至少有碩士學歷,我是否應該去讀個數據科學專業的碩士呢?

天哪,爲什麼你要那樣做?·您必須警惕「數據科學」項目,這些項目很大程度上就是變相的的「業務分析」學位。此外,日常學術界往往落後於工業界,也就是說,你在學校學到的技術可能是過時的。爲了保持與時俱進,利用 Coursera 或 Khan Academy 自學可能是更好的選擇。

噢。

不過,如果你去上大學,可能學的是物理學或運籌學專業?這很難講。據說,我曾遇到過的很多優秀的數據科學家都來自這些研究領域。你或許也能夠找到一個不錯的「數據科學」項目。這些我都無法預料,建議你去看看這位讀博期間中途輟學的作者 Jeremie Harris 所寫的文章(「Do you need a graduate degree for data science?」,閱讀地址:https://towardsdatascience.com/do-you-need-a-graduate-degree-for-data-science-8e3d0ef39253

那我該怎樣開始自學呢?LinkedIn 上有一些人說,對數據科學感興趣的人應該從學習 Linux 開始;接着我又去 Twitter 上看了一下,那裏的人又堅持道:數據科學家應該學習 Scala,而不是 Python 或 R 語言。

LinkedIn 上這麼說的人還差點道行。至於那些推薦學習 Scala 的人的意見,相信我,Scala 就是條羊腸小道,不值得一直沿着它走到黑。現在都是 2019 年了,Scala 在數據科學界都消失了——如果它還在,就沒有 PySpark (獲取地址:https://spark.apache.org/docs/0.9.0/python-programming-guide.html)什麼事了。並且絕對不要聽語言潮人的話,比如那些一直在討論 Kotlin 的人(相關視頻播放地址:https://www.youtube.com/watch?v=J8GYPG6pt5w&feature=youtu.be)。

是嗎?那麼 R 語言呢?大家似乎很喜歡使用它。

R 語言擅長數學建模,不過也僅是這樣。而使用 Python 的話,你可以獲得更多的學習投資回報,而且還可以執行更廣泛的任務,如數據整理和設置 Web 服務等。

但是 R 語言在 Tiobe 上的排名非常高,並且它有非常多的社區和資源,使用它有什麼壞處嗎?

聽着,你可以使用 R 語言。如果你僅僅對數學感興趣,你使用 R 語言或許是更好的選擇,並且它與 Tidyverse 一起使用時表現會更好。但是數據科學要遠遠超出數學和統計學的範疇。相信我,在 2019 年,使用 Python 能讓你走得更遠。

好的,那麼... 我猜我將會去學 Python。

你不會後悔的。

Python 很難學嗎?當機器人接管相關工作時,Python 能維持我的市場競爭力嗎?

當然,Python 是一種非常容易的語言,你可以使用 Python 自主執行許多任務以及做一些很酷的事情。然而你甚至不需要 Python,因爲數據科學又不僅僅是腳本和機器學習的問題。

你這話是什麼意思?

這些軟件都是些工具。你使用 Python 不過是爲了基於數據做分析。數據科學有時候會涉及到機器學習,但是大多數時候不會,它也可以僅僅是創建圖表的問題。事實上,你甚至都不必要學 Python,僅用 Tableau 就可以了。Tableau 在宣傳中稱,僅僅使用這些產品就能「讓你組織機構中的每個人都成爲數據科學家」(該宣傳文章閱讀地址:https://www.tableau.com/learn/whitepapers/make-everyone-your-organization-data-scientist)。

9102年了,你還不知道怎麼做數據科學家嗎?

Tableau 非常自信自己能解決數據科學家的職工問題

什麼?那我是不是隻需要去買一個 Tableau 的 license,就能成爲一位數據科學家了?好的,就讓我們有所保留地將這句話視作營銷的說辭吧。雖然我可能一無所知,但我知道數據科學不僅僅是製作漂亮的可視化圖表。這個我用 Excel 就能做到。

當然,不過你需要承認的是,它就是一次圓滑的營銷。將數據圖表化是一個有趣的階段,並且 Tableau 省去了耗時而痛苦的數據處理部分:清洗、整理、遷移以及加載。

是的,這也是我爲什麼認爲學習代碼很有價值。那麼讓我們聊聊 Python 吧。

事實上,你堅持下去就可以了。不過或許你也可以去學習一下 Alteryx。

什麼?

Alteryx 是另一款軟件,你可以使用它來清洗、整理、遷移和加載數據。它很好用,因爲它使用了一個可任意拖放的界面來混合數據並且...

我的天哪,請先停一下!先不要說這個可任意拖放的工具。我想要學的是 Python,而不是 Tableau 或者 Alteryx。

抱歉。我只是想讓你避開學習代碼,讓你的人生更容易些。另外我這樣做或許也是因爲我們公司也購買了 Tableau 的 license,而我們現在也正在使用。但是無論如何,如果要學 Python,你就要學習使用一些開發庫,例如學習 Pandas 來操作數據框架以及學習 matplotlib 來製作圖表。實際上,也可以捨棄 matplotlib 去學習 Plotly,它採用了 d3.js 並且更好使用。

我知道這其中的一些詞,但什麼是數據框架?

它是一項功能,可以在具有行和列的表格結構中操作數據。在 Python 環境中,轉移、可視化以及聚合等所有這些很酷的操作都可以使用數據框架實現。

等下,那麼它和 Excel 的區別到底在哪裏呢?我畢業後就在一直在完成這些任務,這是否就意味着我已經是一位數據科學家了?

如果你這樣標榜自己更舒服的話,當然可以。當你去聚會或者寫簡歷的時候,不妨標註上這個自封的頭銜。

所以 Python 和 Excel 的區別到底在哪?

Python 的不同之處在於,你可以在 Jupyter notebook (獲取地址:https://jupyter.org/)中執行它。你可以逐步執行數據分析的每個階段,並且 notebook 還可以將每一步都可視化。這個過程大概就像你在創造一個你可以與其他人分享的故事。畢竟,交流和講故事是數據科學至關重要的部分。

這樣說的話,Python 跟 PowerPoint 很像。我之前也一直使用 PowerPoint 處理數據。我現在非常困惑。

這二者有很大區別。Notebook 要遠遠更自動化和更先進,並且可以輕鬆追溯分析每個步驟。但是提到這一點,我記得有些人說過甚至不喜歡使用 Notebook,因爲它的代碼不是很實用(相關視頻:https://www.youtube.com/watch?v=7jiPeIFXb6U)。如果你需要將代碼轉變成軟件產品,在 notebook 以外將代碼模塊化會更簡單些。

因此現在的數據科學也是軟件工程嗎?

數據科學和軟件工程很大程度可以劃等號,但是現在先別分心到這個上。現在要先學習更爲緊迫的事情。數據科學很明顯是需要數據的。

當然。

並且開始之初,獲取數據的一個不錯的方法就是從網頁上爬取數據,例如一些維基頁面。

此外,我們試圖實現的是什麼?

我們可以獲得一些數據來實踐一下。從網頁頁面上爬取數據並使用 Beautiful Soup(獲取地址:https://www.crummy.com/software/BeautifulSoup/) 解析可以提供大量非結構化文本數據供我們實踐。

我很困惑。我剛剛纔讀一本關於 SQL 的 130 頁的圖書(《Getting Started with SQL: A Hands-On Approach for Beginners》,圖書查看地址:https://www.amazon.com/dp/1491938617),對於數據,一般我會查詢表而不是從網頁上爬取。獲取數據最主要的途徑不應該是 SQL 嗎?

我們使用非結構化文本數據可以做很多很酷的事情。我們能用它對社交媒體貼文上的觀點進行分類,或者進行自然語言處理。非關係型的數據庫(NoSQL)擅長存儲這類爬取的數據,因爲我們存儲的數據還沒有被處理爲對分析有用的數據。

我聽說過 NoSQL 這個術語,它是指 SQL,還是指反 SQL?我是不是可以理解爲——它能夠處理大數據?

首先「大數據」的風頭在 2016 年就過去了,之後其實大部分人都沒有真正使用過這個概念了,當你再提起這個概念就不夠酷了。像很多令人興奮的科技一樣,它也已經過了技術成熟曲線(Gartner Hype Cycle)的高峯期(相關文章閱讀:https://www.analyticsindiamag.com/big-data-buzz-is-on-decline-is-2017-the-year-of-demise-for-big-data/),僅僅只能在某些地方找到它的市場。但是 NoSQL 基本上就是「大數據」運動的產物,併成長成像 MongoDB 這樣的平臺。

那爲什麼叫「NoSQL」呢?

NoSQL 的意思是指「不僅僅是 SQL」,並且支持關係表以外的數據架構。不過,NoSQL 數據庫通常都不使用 SQL,而是使用專屬的查詢語言。下圖是 MongoDB 和 SQL 的語言比較:

9102年了,你還不知道怎麼做數據科學家嗎?

我的天哪,真糟糕!所以你剛剛是說每個 NoSQL 平臺都有自有的查詢語言?那 SQL 有什麼問題呢?

我理解你的感受。除了已存在了幾十年,SQL 沒有什麼其他問題。這種非結構化數據熱潮帶來了一個可以嘗試此前不可能使用的方式去做些不一樣或者巨大規模的事情。不過,我猜更多人可能認爲 SQL 的存在是有價值的(相關文章閱讀:https://blog.timescale.com/why-sql-beating-nosql-what-this-means-for-future-of-data-time-series-database-348b777b847a/),它能讓分析變得更簡單得多。事實上,許多 NoSQL 和「大數據」技術都在爭相將 SQL 層添入某種形態或形式中(相關文章閱讀:https://www.networkworld.com/article/3019122/tech-primers/the-hidden-costs-of-nosql.html)。畢竟,即便有些人發現 SQL 很難學,但它也還是一種非常通用的語言。

9102年了,你還不知道怎麼做數據科學家嗎?

好的。我總結一下你剛剛說的話,學習 NoSQL 對於成爲一位數據科學家來說不再是起決定性作用的,除非我的工作在某種程度上需要用到它。這樣說的話,似乎我僅瞭解 SQL 就很安全了。

仔細想來,還真是,我認爲你總結得對,除非你立志成爲一位數據工程師(才需要學習 NoSQL)。

數據工程師?

是的,數據科學家分爲兩個專業方向。數據工程師一般使用產品系統工作,並幫助將數據和模型處理爲可用的,但他們會比較少涉及機器學習和數學建模工作——這部分工作由數據科學家負責。二者間的區分是必要的,因爲大多數 HR 和招聘者在看簡歷時都不會跳過「數據科學家」這個頭銜(相關閱讀:https://www.fastcompany.com/40432834/what-if-the-data-science-skills-gap-is-just-a-hiring-hot-mess)。考慮到這些,如果你想成爲一位數據工程師,我推薦你優先學習 Apache Kafka,之後纔是學習 NoSQL。現在,Apache Kafka 非常熱門。

下面這張維恩圖或許對你有幫助,如果你想獲得「數據科學家」的頭銜,你需要重點關注 Math/Statistics 圓圈與其他學科之間的重疊部分。

9102年了,你還不知道怎麼做數據科學家嗎?

數據科學維恩圖

好吧。我現在還不知道我想成爲一位數據科學家還是一位數據工程師。我們繼續討論一下。但要先回到前面的這個問題:爲什麼我們從維基頁面上爬取數據?

這是因爲從維基頁面上爬取的數據可以很好地作爲自然語言處理的數據輸入,之後就像創建一個聊天機器人一樣執行相關操作。

就像微軟的 Tay 機器人一樣?這個機器人是否足夠聰明來預測銷售額,同時幫我維持合適數目的存貨來發布新產品呢?是否存在機器人變成種族主義的風險呢?

理論上來說,它可能會。如果你通過汲取相關新聞文章中的技術,也許可以創建一些模型來找到影響業務決策建議的趨勢。但是這真的「真的」很難實現。這樣想來,這可能不是一個好的起點。

9102年了,你還不知道怎麼做數據科學家嗎?

來自 Gordon Ramsay,該個機器人正在打破烹飪藝術的界限,它甚至寫出了一本烹飪書(相關閱讀:http://aiweirdness.com/tagged/cookbook

所以... 自然語言處理、聊天機器人以及非結構文本數據幾乎就跟我沒什麼關係了?

大概沒有,但是需要注意的是,現在有大量的數據科學。谷歌、Facebook 等硅谷公司現在都處理大量的非結構化數據(例如社交媒體的貼文以及新聞文章等),並且很明顯地是,他們對於「數據科學」的定義影響巨大。之後就是其他的公司使用某個相關的數據庫中的業務運營數據以及使用如 SQL 等不是那麼厲害的技術了。

這樣說也沒錯。我認爲他們也致力於將非結構化數據的處理能力大範圍地用於挖掘用戶貼文、郵件以及故事來進行廣告宣傳,或實現其他邪惡的目的。

這恰恰就是這件事的本質。但是你也可能發現樸素貝葉斯方法的趣味以及某些有用的東西。你可以採用文本的主體來預測它的分類,從頭開始這項操作也非常簡單:

使用樸素貝葉斯方法來分類文本主體的演示視頻播放網址:https://youtu.be/JLSdW60t898

不錯,樸素貝葉斯方法真的很酷,但是除此之外,我看不到非結構化數據的任何其他價值。

我們之後會繼續討論一下這個問題。這麼說的話,你現在工作中處理的大量數據都是列表數據(tabular data):電子數據表、表格以及大量記錄的數字。這些工作內容看上去是你想做一些預測或統計分析。

是的,最終我們就是要實現這些現實問題。現在這些領域引入了神經網絡或者深度學習嗎?

哎哎哥們你別急啊。我之前就打算建議你從一些有均值和標準差的正態分佈開始學習。也可以用 z-scores 和一兩個線性迴歸計算進行概率計算。

但是我還是要說一遍,這些我用 Excel 就能完成!這裏我漏聽了什麼嗎?

話是這樣說,你可以用 Excel 完成大部分這樣的工作,但是當你使用寫腳本的方式去做的時候,工作的靈活性會大大增強。

像 VBA 之類的 Visual Basic 嗎?

我繼續說一下這個問題,當做你沒有說過那些話。Excal 有很出色的統計算符和好的線性迴歸模型。但是如果你需要爲項目的每個類別都做一個離散的正態分佈或迴歸,用 Python 語言寫腳本要比創建一個長得可怕(都可以成爲測量到月球距離的度量標準)的公式要容易得多。

9102年了,你還不知道怎麼做數據科學家嗎?

當你熟練掌握 Excel 時,你會遭受與所有人一同工作的痛苦

此外,你還可以使用非常好用的開發庫 scikit-learn(獲取地址:https://scikit-learn.org/stable/index.html)。針對迴歸和機器學習模型,你有很多更佳的選擇。

完全明白了。你說的這個就涉及到數學建模領域了,如果遇到數學問題,我該從何開始呢?

「傳統智慧」說,線性代數是許多數據科學的基石,這是你應該開始的地方。將矩陣相乘和相加(稱爲點積)是你今後需要反覆做的運算,另外如行列式、特徵向量等都是重要的概念。3Blue1Brown 幾乎是唯一一個你能找到對線性代數進行直觀解釋的地方(相關視頻播放地址:https://www.youtube.com/watch?v=fNk_zzaMoSs&list=PLZHQObOWTQDPD3MizzM2xVFitgF8hE_ab)。

9102年了,你還不知道怎麼做數據科學家嗎?

將一個數字網格與另一個數字網格相乘/加法,是我將來需要反覆做的事情?這聽起來毫無意義並且無聊。你能舉一個用例嗎?

可以..... 機器學習!當你做線性迴歸(相關閱讀:https://towardsdatascience.com/linear-regression-using-gradient-descent-97a6c8700931)或構建自己的神經網絡時,就要使用隨機權重值來進行大量的矩陣乘法和縮放。

所以矩陣跟數據框架關係很大嗎?二者聽起來很相似。

實際上,等等... 我在重新思考這個問題。讓我們先回到上一個問題,在實踐中,你並不需要做線性代數。

9102年了,你還不知道怎麼做數據科學家嗎?

真的嗎?那我還要學線性代數嗎?

在實踐中,你可能不需要學習線性代數(相關閱讀:https://machinelearningmastery.com/why-learn-linear-algebra-for-machine-learning/)。TensorFlow、scikit-learn 等開發庫實際上已經爲你完成所有線性代數相關的工作。不管怎麼說,線性代數很乏味並且很無聊。最後,你可能希望瞭解一下這些開發庫的工作原理。但就目前而言,你只需開始使用機器學習庫,同時可以完全忽略線性代數。

你的不確定性讓我不安,我能相信你嗎?

能有點感恩之心嗎?我把你救出了另一個「兔子洞」。好吧,沒關係。

此外,在我忘記之前,我還要提醒你:不要只使用 TensorFlow,另外用上 Keras 可讓 TensorFlow 的操作更加簡單。

說到機器學習,線性迴歸真的能夠實現機器學習嗎?

是的,線性迴歸構成了「機器學習」的工具包。

這真是太好了,我一直都用 Excel 來做線性迴歸。所以我也能稱爲自己是一位機器學習從業者嗎?

(嘆氣)從技術上來說,是的。但是你可能需要擴展一下你的寬度。你可以看到,機器學習(不從技術上來說)一般就是兩個任務:迴歸和分類。不過從技術上來說,分類就是迴歸。決策樹、神經網絡、 支持向量機、邏輯迴歸以及線性迴歸執行的都是曲線擬合的某些形式。根據具體情況,每個模型都有利弊。

9102年了,你還不知道怎麼做數據科學家嗎?

9102年了,你還不知道怎麼做數據科學家嗎?

等等,所以機器學習就僅僅是迴歸?他們都能有效地將曲線擬合成點?

大部分都能。像線性迴歸這樣的一些模型是清晰且可解釋的,而像神經網絡等更先進的模型,從定義上來看,複雜並且難以解釋。神經網絡實際上只是使用了一些非線性函數的多層迴歸。當只有 2-3 個變量時,它看起來可能不怎麼引人注意,但是當你有數百或數千個變量時,它就開始令人感興趣了。

簡單的神經網絡演示視頻播放網址:https://youtu.be/tAioWlhKA90

當你這樣使用神經網絡,當然會讓人感興趣。那圖像識別也僅僅是線性迴歸嗎?

是的,每個圖像像素基本上都變成了數值的輸入變量。這讓我想起,你必須警惕維度懲罰(curse of dimensionality.)。這基本上意味着擁有的變量(維度)越多,就需要更多的數據來防止其變得稀疏。這是機器學習如此不可靠和散亂的衆多原因之一,並且還會需要大量你所沒有的經過標註的數據。

9102年了,你還不知道怎麼做數據科學家嗎?

我現在有很多問題。

(那就開始提問吧)

怎麼解決員排班或者交通運輸等問題?數獨(Sudoku)問題呢?機器學習能解決所有這些問題嗎?

當你遇到這些類型的問題時,有些人會指出,它們都不是數據科學或機器學習。它們是「運籌學」(相關閱讀:https://en.wikipedia.org/wiki/Operations_research)。

對我來說,這些似乎都是實際問題。那麼運籌學與數據科學無關嗎?

實際上,二者間存在相當多的重疊。機器學習使用到的大量優化算法,其實都是運籌學所提供的。此外,運籌學還爲常見的「AI」問題(就如你剛剛所提到的)提供了許多解決方案。

那麼我們使用什麼算法來解決這些問題呢?

絕對不是使用機器學習算法,這一點很少有人知道。解決這些問題可以使用存在了幾十年的更好的算法,例如樹搜索、啓發式演算法、線性規劃以及其他的運籌學方法論(相關閱讀:https://www.coursera.org/learn/discrete-optimization/home/welcome),它們已經被使用了很長時間,並且對於這些類型的問題,它們的表現要比機器學習算法更好。

那麼爲什麼每個人在談論的都是機器學習而不是這些算法呢?

(嘆氣)因爲這些優化問題在短時間內就得到了令人滿意的解決,並且之後也沒有發生關於這些方法的熱點新聞。信不信由你,關注這些算法的首輪 AI 熱潮發生在幾十年前。當下的 AI 熱潮則是由機器學習點燃的,同時點燃的還有機器學習能很好解決的問題類型:圖像識別、自然語言處理、圖像生成等。

那人們建議使用機器學習來解決排班問題,或者如數獨這類簡單問題時,這種做法是否錯誤呢?

差不多,是的。機器學習、深度學習等等...... 今天這些炙手可熱的技術通常都無法解決離散優化問題——至少無法很好地解決。研究者們都有過嘗試,但效果非常不理想。

因此,如果機器學習只是迴歸,爲什麼每個人都小題大做地認爲機器人和人工智能會威脅到人類的工作和社會?我的意思是...... 擬合曲線真的有危險嗎?當「AI」在進行迴歸時,它又有多強的自我意識?

人們已經發現了一些更明智的迴歸應用,例如在給定的轉彎上找到最佳的國際象棋移動(這個離散優化也可以實現),或者自動駕駛汽車計算出要轉向的是哪個方向。當然,這其中有相當多的炒作成分,而且迴歸也僅有這麼些應用並且只能運行一個任務。

我還在適應這種脫節。我一直都有閱讀關於 DeepMind 在國際象棋遊戲中複製類人的智能的文章(相關報道文章:AlphaGo稱王!柯潔輸掉三番棋最後一場,如今它正致力於擊敗《星際爭霸》中的人類玩家相關報道文章:多圖詳解 DeepMind 的超人類水準星際爭霸 AI 「AlphaStar」!這些機器學習算法在所有這些遊戲中都擊敗了人類玩家!這是否也意味着他們接下來將取代我等人類的工作呢?

《星際爭霸》人類玩家中又有多少人威脅到你的工作呢?

(默默地疑惑)

難道你能說玩《星際爭霸》遊戲跟從事你的工作完全類似嗎?

9102年了,你還不知道怎麼做數據科學家嗎?

如果《星際爭霸》人類玩家威脅不到你的工作,又爲什麼要擔心《星際爭霸》機器人玩家呢?它們經過硬編碼和訓練來完成這一項任務:玩《星際爭霸》。那些沒有花時間去做其他事的人無法威脅到你,同理,它們對你也夠不成威脅。

我不確定要持放心還是懷疑的態度。首先是國際象棋,然後是星際爭霸...... 也許接下來就是自動化分析以及機器人做戰略性業務決策。不過,也許第三項是前兩項基礎上的大飛躍。其他我就不知道了。

有人從數據科學的角度寫了一篇關於深度學習到達侷限的文章,你不妨前去閱讀一下:

9102年了,你還不知道怎麼做數據科學家嗎?

閱讀網址:https://towardsdatascience.com/is-deep-learning-already-hitting-its-limitations-c81826082a

好的。總之,我們該如何從數據科學轉向人工智能?我越試圖去定義「數據科學」,我就越...... 無法描述它。整件事情是如此混亂和模糊。

這裏我找到了同一位作者寫的另一篇文章,你也可以閱讀一下:

9102年了,你還不知道怎麼做數據科學家嗎?

閱讀地址:https://towardsdatascience.com/data-science-has-become-too-vague-538899bab57

感謝你。我需要去散個步來消化這些東西。要說我已經從中得到了什麼的話,那就是我認爲我使用 Excel 所做的工作符合「數據科學」的條件。雖然我不知道我是否想擁有「數據科學家」的頭銜,但它看上去可以是任何東西。我還是把時間花在別的事情上吧。希望數據科學接下來發生的「下一件大事」不會那麼瘋狂。

你不妨關注 IBM 一段時間?

爲什麼呢?

既然數據科學聽起來不那麼有趣了,那麼量子計算了解一下?(微笑)

(完)

via:https://towardsdatascience.com/how-it-feels-to-learn-data-science-in-2019-6ee688498029

文章來源:雷鋒網