送你10本機器學習和數據科學必讀書(附PDF下載)

 2019-02-15

在讀完本文列出的書單之後,如果你想要更多免費、高質量的書單,可以查看這個系列之前的帖子:

https://www.kdnuggets.com/2017/04/10-free-must-read-books-machine-learning-data-science.html

1. Python Data Science Handbook

鏈接:

https://github.com/jakevdp/PythonDataScienceHandbook

作者:Jake VanderPlas

這本書介紹了在Python中處理數據所需要的基本而重要的庫,包括IPython、NumPy、Pandas、Matplotlib、Scikit-Learn和其他相關的包。該書假定讀者對Python語言有一定的瞭解。如果你需要快速入門Python這門語言,可以查看免費的配套項目:

A Whirlwind Tour of Python:

https://github.com/jakevdp/WhirlwindTourOfPython

它會幫助研究員和科學家快速入門Python。

2. Neural Networks and Deep Learning

鏈接:

http://neuralnetworksanddeeplearning.com/
作者:Michael Nielsen

Neural Networksand Deep Learning是一本在線書籍。這本書會告訴你:

  • 神經網絡是一種優美的仿生編程範例,它使得計算機能夠通過觀測數據進行學習。

  • 深度學習是一系列強大的技術, 以幫助實現在神經網絡中學習。

神經網絡深度學習目前是圖像識別、語言識別自然語言處理等領域的最佳方案。該書同時也會教你神經網絡深度學習的各種核心概念。

3. Think Bayes

鏈接:

http://greenteapress.com/wp/think-bayes/

作者:Allen B. Downey

Think Bayes是介紹如何通過編程方法進行貝葉斯統計的書籍。

這本書和其他Think X系列書籍的想法一樣,他們認爲只要你知道如何編程,那麼你就可以通過這項技能來學習其他的課題。

大多數的貝葉斯統計書籍會使用數學符號並且通過微積分一類的數學概念來展現其統計思想。這本書則使用Python代碼、離散逼近而非數學、連續數學來解釋貝葉斯統計。通過這樣的方式,在數學書裏的積分,將會轉變爲求和。許多在概率分佈上的操作將會通過簡單的循環而實現。
4. Machine Learning & Big Data

鏈接:

http://www.kareemalkaseer.com/books/ml

作者:Kareem Alkaseer

這本書還沒寫完,我把它添加到表單,你可以稍後纔看[H1] 。這個項目的目的在於平衡軟件工程師的理論與實踐,使他們能輕鬆地運行機器學習模型而並不需要過分依賴各種各樣的庫。大多數時候,模型或技術背後的概念是簡單而直觀的,但卻在大量的細節或者術語中被掩蓋了。同時,大多數情況下,現有的庫能夠解決手頭的問題,但是他們卻被視作一個黑盒子,通常因他們自身的抽象與架構隱藏了背後的基本概念。這本書將闡釋這些基本概念。

5. Statistical Learning with Sparsity: 

The Lasso andGeneralizations

鏈接:

https://web.stanford.edu/~hastie/StatLearnSparsity/
作者:Trevor Hastie,Robert Tibshirani,Martin Wainwright

過去的十年裏,計算和信息技術出現了爆炸性增長,同時出現了大量的源自不同領域的數據,例如醫療、生物、金融和市場營銷。這本書將在一個通用的概念性框架下來講解這些領域的重要思想。

6. Statistical inference for data science

鏈接:

https://leanpub.com/LittleInferenceBook

作者:Brian Caffo

這本書是Coursera數據科學項目(Data Science Specialization)中的統計推斷(Statistical Inference)課程配套書籍。但是你並不需要上這門課,因爲這本書的大部分內容可以獨立使用。這本書其中一個重要的部分是一系列組成Coursera 課程的Youtube視頻。這本書的出版詣在提供一個成本低廉的統計推斷入門。目標讀者是有數學或計算機背景的並且希望在統計和數據科學領域中得以運用的學生。這本書在Github上以markdown文檔的形式免費提供。同時也以更便捷的形式(epub,mobi)在LeanPub和零售店提供。

7. Convex Optimization

鏈接:

http://stanford.edu/~boyd/cvxbook/

作者:Stephen Boyd,Lieven Vandenberghe

這本書是關於凸優化的,即一類數學優化問題,包括最小二乘方和線性規劃。衆所周知,最小二乘方和線性規劃是非常完整的理論,它們有着各式各樣的應用,並且可以用數學的方法高效地得出解。這本書的中心即闡述更多的凸優化問題。

8. Natural Language Processing 

with Python

鏈接:

https://www.nltk.org/book/

作者:Steven Bird,Ewan Klein,Edward Loper

這是一本關於自然語言處理的書。「自然語言」指的是人類日常交流使用的語言,例如英語、印度語和葡萄牙語。相較於數學符號、編程語言等人造語言,自然語言在時代變遷中不斷進化,很難通過明確的規則來界定。我們這裏定義的是廣義上的自然語言處理,本書將會介紹計算機對自然語言各種形式的操作。

這本書基於Python語言,並同時提供名叫Natural Language Toolkit的開放資源庫。

9. Automate the Boring Stuff 

with Python

鏈接:

https://automatetheboringstuff.com/

作者:Al Sweigart

如果你曾花過數小時時間在文件重命名和更新數百個電子表格數據上,那麼你知道這些工作有多麼枯燥乏味。但如果你能夠讓電腦可以幫你做這些呢?

這本書裏,你會學習如何使用Python來編輯程序,來代替你做需要花幾個小時的事情,並且你不需要有編程基礎。當你很純熟地掌握這些編程基礎,你將能夠使用Python編程毫不費力地實現許多有用並驚豔的自動化特技。

10. Social Media Mining: An Introduction

鏈接:

http://dmml.asu.edu/smm/
作者:Reza Zafarani, Mohammad Ali Abbasi and Huan Liu

過去十年中,社交媒體顛覆了個體的交流和行業間的經營方式。個體以史無前例的速度通過在社交媒體上交流、分享和消費內容產生大量數據。理解和分析這類新數據來收集可行的模型成爲了交叉領域研究、新型算法和工具開發所面臨的新機遇與新挑戰。這本書結合了社交媒體,社交網絡分析和數據挖掘,幫助學生、從業者、研究員和項目經理快速、清晰地理解社交媒體挖掘的基礎和未來的可能性。

原文標題:

10 More Free Must-Read Books for Machine Learning and Data Science

原文鏈接:

https://www.kdnuggets.com/2018/05/10-more-free-must-read-books-for-machine-learning-and-data-science.html

文章來源:機器之心