機器學習成才之路：這是一條GitHub高贊的學習路徑

長沙7喜 2019-03-21

展開全文

通過互聯(lián)網(wǎng)學習意味著可以在無垠的知識海洋中遨游，但也可能因為廣闊而迷失。在這個項目中，作者為機器學習提供了一個完整的學習路徑。從 ML 到 DL、Scikit-Learn 到 TensorFlow，你需要這份學海指南。

曾有多少次，當你試圖接近某一個新主題或領域時，會感到困惑、迷失方向并且無「路」可循。要如何確保你能夠深刻理解并且獲得運用它的能力呢？當然是借鑒其他人的成熟路徑，然后跟著他一步步學習，少走很多彎路。

在這篇文章中，作者總結了三四年內(nèi)從互聯(lián)網(wǎng)學習機器學習的經(jīng)驗，他收集了大量開源項目、工具、教程和視頻鏈接等資源，并將它們組織成一條高效的學習路徑。

項目地址：https://github.com/clone95/Machine-Learning-Study-Path-March-2019

本資源庫旨在為以下領域提供三種有機完整的學習路徑：

機器學習
商業(yè)智能（即將發(fā)布）
云計算（即將發(fā)布）

在此你將能夠了解相關原理并且在項目實踐中予以運用。如果仔細遵循這些學習路徑，則可以從零開始構建完整的認識和獲得始終可用的技能。事實上，這些學習路徑不需要之前有相關知識，但基礎編程和簡單數(shù)學是理解和實踐大多數(shù)概念的必要條件。

這里列出的每一個資源都是免費或開源的，作者設法以簡潔方式進行表述以避免顯得太過復雜。此外，作者試圖按照層次和復雜程度來組織內(nèi)容，從而為學習機器學習原理提供一個連貫的概念。

作者表示，第二本指南（商業(yè)智能）將在 2 至 3 周內(nèi)發(fā)布：

機器學習生涯-已發(fā)布
商業(yè)智能生涯-即將發(fā)布
云計算生涯-即將發(fā)布

以下是不同學習路徑的的路線圖（機器學習的路線圖已發(fā)布）。

三大路徑與專題

在三大路徑中，機器學習工程師已經(jīng)完成并發(fā)布，其它商業(yè)數(shù)據(jù)分析和云計算還沒有完成。其中在機器學習工程師需要從基本的工具、傳統(tǒng)機器學習到深度學習打造完整的知識體系，同時也要知道如何工程化地開發(fā)和部署模型。

在學習 ML 和 DL 的過程中，作者表示重點是按照層次理解各模型的概念，并通過優(yōu)秀的開源框架實現(xiàn)這些概念。文章后面會具體介紹機器學習工程師應該學習哪些模型與工具才能一步步成長。

對于后面的兩條路徑，它們注重的內(nèi)容不同，知識體系也不一樣，有需要的同學還需要等幾周。此外，作者還提供了一些額外的擴展知識，包括數(shù)據(jù)專題和軟技能專題。

其中數(shù)據(jù)專題介紹了數(shù)據(jù)的各種操作，它們的確是每一位數(shù)據(jù)工作者的核心工具包。從某種角度看，與數(shù)據(jù)打交道是一門藝術，最佳實踐會幫助你理解處理數(shù)據(jù)的正確方式，但同時你也需要培養(yǎng)一種如何處理數(shù)據(jù)的「直覺」，而這種「直覺」大都是由情境和經(jīng)驗驅動的?；诖耍@些專題將著重討論訓練和實踐。

機器學習工程師成才之路

這一部分介紹了已經(jīng)發(fā)布的「機器學習工程師」學習路徑，作者介紹了很多學習資源，我們只展示了簡要的示例，更多細節(jié)請查看原項目。

這里列出的所有東西都是開源且免費的，而且大部分來自世界著名的大學和開源協(xié)會。

當我們學習一些新的東西，尤其是那些內(nèi)容廣泛又復雜的事物時，避免混淆是很有必要的。因此本文接下來將介紹一些相關內(nèi)容，而且盡可能采用那些來自相同語境和作者的內(nèi)容。如果沒有合適的內(nèi)容，作者收集了理論和例子以及一些指向資源的內(nèi)容，如「______的最佳實踐」。

作者將學習路徑分為四部分：

1. 先決條件

Python
Jupyter Notebook
需要掌握的數(shù)學
機器學習路徑

2. 用 Scikit-Learn 庫進行機器學習

為什么選擇 Scikit-Learn？
端到端機器學習項目
線性回歸
分類
訓練模型
支持向量機
決策樹
集成學習和隨機森林
無監(jiān)督學習
當前總結和未來展望

3. 用 TensorFlow 學習神經(jīng)網(wǎng)絡

為什么選擇 TensorFlow
啟動和運行 TensorFlow
ANN——人工神經(jīng)網(wǎng)絡
CNN——卷積神經(jīng)網(wǎng)絡
RNN——循環(huán)神經(jīng)網(wǎng)絡
訓練網(wǎng)絡：最佳實踐
自編碼器
強化學習
下一步

4. 學習工具

機器學習項目
數(shù)據(jù)科學工具
博客/Youtube 頻道/網(wǎng)站

背景知識

Python 是最有用和受歡迎的編程語言之一，因此它用于機器學習領域是無可厚非的事。和數(shù)據(jù)科學領域的大部分框架一樣，TensorFlow 和 Python 結合了，而 Scikit-Learn 則是用 Python 寫的。

簡而言之，Jupyter Notebook 就是用來寫并運行 Python 代碼的編輯器。與數(shù)據(jù)打交道意味著需要大量實驗，并將實驗組織成某些具體的形式以獲取潛在知識，所以 Jupyter Notebook 就必不可少了。

Python 和 Jupyer Notebook 是最基礎的模塊，相信大家已經(jīng)非常熟了。如果需要走機器學習之路，除了 Python 外，首先就需要知道如何使用數(shù)值計算庫 NumPy、可視化庫 Matplotlib 和數(shù)據(jù)預處理庫 Pandas，它們都是機器學習工程必不可少的工具。

有人告訴你機器學習背后的數(shù)學很難？這么說也沒錯。但是，要知道你每次要用它的時候，機器會為你處理這些。所以重點是抓住主要概念并認識到其局限性和應用方面。如果你不熟悉這些概念，那就學習，因為這是所有一切的原理。

有了這三種資源，你就能夠明白你真正需要深入理解的大部分東西。

關于線性代數(shù)的精品課程：https://ocw./courses/mathematics/18-06-linear-algebra-spring-2010/
與基本概率和統(tǒng)計學概念結合：https://www./course/introduction-to-probability-0
你需要了解的大多數(shù)數(shù)學：https:///matrix-calculus/index.html#sec4.5

如下書籍所述，它描述了有關什么是機器學習以及什么時候需要機器學習，這些都是最簡潔和最具啟發(fā)性的概述。

地址：https://www./library/view/hands-on-machine-learning/9781491962282/ch01.html

傳統(tǒng)編程開發(fā)流程。

機器學習開發(fā)流程。

機器學習與 Scikit-Learn

Scikit-Learn 是最完整、最成熟以及完檔最完整的機器學習任務庫之一。Scikit-Learn 利用功能強大和先進的模型實現(xiàn)「開箱即用」，并且為數(shù)據(jù)科學流程提供設施功能。初次使用時，作者建議你過一遍下面的 Kaggle 案例，它目的是試圖對泰坦尼克號上的乘客是否最有可能生還作出預測。

泰坦尼克號示例：https://www./startupsci/titanic-data-science-solutions

其它更多的示例與資料可在 Kaggle 上獲得，該平臺提供大量免費數(shù)據(jù)集以及有趣的挑戰(zhàn)和機器學習模型試驗。

1. 線性回歸

最簡單的機器學習形式，也是每個對預測數(shù)據(jù)集結果感興趣的人的起點。

例 1：https:///stable/auto_examples/linear_model/plot_ols.html#sphx-glr-auto-examples-linear-model-plot-ols-py
例 2：https:///how-to-run-linear-regression-in-python-scikit-learn/
例 3：https://www./linear-regression-python-implementation/

2. 分類

當想要從不同的可能性中預測結果時，分類是最重要的機器學習任務之一。

二分類：https:///make-predictions-scikit-learn/
logistic 回歸：https:///building-a-logistic-regression-in-python-301d27367c24
分類器度量標準：https:///thalus-ai/performance-metrics-for-classification-problems-in-machine-learning-part-i-b085d432082b

3. 支持向量機（SVM）

支持向量機是一種非常經(jīng)典的 ML 模型，它的目的是尋找一個超平面來對樣本進行分割，分割的原則是類別間隔最大化，最終轉化為一個凸二次規(guī)劃問題來求解。

理論解釋：https://www.bilibili.com/video/av28186618
實戰(zhàn)指南：https://www.bilibili.com/video/av38543231
實戰(zhàn)指南：http:///2017/02/01/decision-tree-algorithm-python-with-scikit-learn/

4. 決策樹

決策樹預測結果背后最簡單但最有效的方法之一，它們被用于很多方面（如隨機森林）。

理論解釋：https://www.bilibili.com/video/av26086646
實戰(zhàn)指南：https://www.bilibili.com/video/av35523476
實戰(zhàn)指南：http:///2017/02/01/decision-tree-algorithm-python-with-scikit-learn/

5. 集成學習和隨機森林

集成學習是利用所有不同特征、一些機器學習模型的優(yōu)缺點來獲得一組「投票者」，這些投票者在每次預測時都會給你最有可能的結果，這些投票由不同的分類器給出（SVM、ID3 算法、logistic 回歸）。

6. 無監(jiān)督學習

臺大李宏毅視頻：https://www.bilibili.com/video/av10590361/?p=24
explains Unsupervised Learning really well：https:///unsupervised-learning-with-python-173c51dc7f03
無監(jiān)督學習、有監(jiān)督學習和強化學習的區(qū)別：https://blogs./blog/2018/08/02/supervised-unsupervised-learning/

深度學習和 TensorFlow

自 2015 年開源以來，深度學習框架的天下就屬于 TensorFlow。不論是 GitHub 的收藏量或 Fork 量，還是業(yè)界使用量都無可比擬地位列頂尖。這一部分作者介紹了很多 TensorFlow 相關的教程與實現(xiàn)，推薦讀者可以直接看 TensorFlow 的官方教程。對于深度學習，讀者可以跟著斯坦福的 CS231n 課程或《深度學習》進行學習。