欧美国产欧美综合,精品国产一区一区二区三亚瑟,樱花草涩涩www在线播放

作者：Parul Pandey

機器之心編譯

參與：Panda

梯度下降是最常用的機器學習優化算法之一，Towards Data Science 近日發布了一篇文章，淺顯易懂地解釋了梯度下降的原理和工作過程。

「過早優化是罪惡之源。」

——計算機科學家和數學家 Donald Ervin Knuth

敏捷（agile）是軟件開發過程中的一個廣為人知的術語。其背后的基本思想很簡單：快速構建出來→發布它→獲得反饋→基于反饋進行修改→重復這一過程。這種做法的目標是讓產品親近用戶，并讓用戶通過反饋引導你，以實現錯誤最少的可能最優的產品。另外，改進的步驟也需要很小，并且也應該讓用戶能持續地參與進來。在某種程度上講，敏捷軟件開發過程涉及到快速迭代。而梯度下降的基本過程也差不多就是如此——盡快從一個解開始，盡可能頻繁地測量和迭代。

目標

梯度下降算法是一個迭代過程，能讓我們得到一個函數的最小值（這里先不提一些額外的注意事項）。下面的公式將整個梯度下降算法匯總成為了一行：

但我們是怎么得到這個公式的？實際上很簡單，而且僅包含一些高中數學知識（小編：海外高中數學？捂臉）。我們希望能通過這篇文章在線性回歸模型的背景中理解和再現這一公式。

一個機器學習模型

設有一些在一個 2D 空間中的數據點。假設這些數據與一組學生的身高和體重有關。我們希望預測這些量之間的某種關系，以使我們可以預測未來某個新學生的體重。這本質上是監督式機器學習技術的一個簡單案例。

現在，讓我們在空間中畫一條任意的線，并使其穿過某些數據點。那么這條線的方程即為 Y = mX + b，其中 m 是斜率，b 是這條線在 Y 軸上的截距。

預測

給定一組已知的輸入和它們對應的輸出。機器學習模型會嘗試基于這些數據預測新輸入的輸出結果。

機器學習過程

誤差（Error）即為兩個預測結果之間的差異。

與其相關的概念是成本函數或損失函數。

成本函數

成本函數/損失函數評估的是我們的機器學習算法的性能表現。損失函數計算的是單個訓練樣本的誤差，成本函數則是損失函數在整個訓練集上的平均。因此，我會交替地使用這兩個術語。

基本上而言，成本函數能告訴我們在給定了 m 和 b 的值時模型在預測方面的表現「有多好」。

比如說，如果數據集中共有 N 個點，而對于所有這 N 個數據點，我們希望最小化其誤差。因此成本函數就將是總平方誤差，即：

N 個數據點的成本函數

為什么我們要用平方差而不直接使用絕對差呢？因為平方差能讓我們更輕松地推導出一條回歸線。實際上，為了找到那條線，我們需要計算成本函數的一階導數，而計算絕對值的倒數比計算平方值的導數要難得多。

最小化成本函數

任何機器學習算法的目標都是最小化成本函數。

這是因為實際值和預測值之間的誤差越低，就說明算法在學習上的表現就越好。因為我們希望得到最低的誤差值，所以我們希望這些m 和 b 值所得到的誤差盡可能最小。

我們究竟如何最小化任意函數？

仔細觀察，我們的成本函數是 Y=X2 的形式。在笛卡爾坐標系中，這是一個拋物線方程，可以畫成下圖形式：

拋物線

要最小化上述函數，我們需要找到能得到最低 Y值的 X 值，即紅點位置。因為這是一張2D 圖，所以定位其最小值很容易，但在更高維度上情況卻非如此。在這些情況下，我們需要設計一個能定位最小值的算法，這個算法就是梯度下降。

梯度下降

梯度下降是最常用的優化算法之一，也是目前最常用的優化神經網絡的方式。這是一種用于尋找函數最小值的迭代式優化算法。

直觀理解

假設你正沿著下面的圖行走，而且目前正位于綠點位置。你的目標是到達最小值，即紅點位置；但在你的位置處，你無法看到最小值在哪里。

可能的動作會是這樣：

你可能向上或向下
如果你決定了要走的方向，為了到達目的地，你可能跨一大步，也可能走一小步。

本質上講，為了到達最小值，你應該知道兩件事：走哪條路和步子邁多大。

梯度下降算法可使用導數幫助我們有效且高效地做這些決定。導數是源自微積分的一個術語，可作為圖在特定點的斜率而進行計算。所以，如果我們有能力計算這條切線，我們可能就能夠算出為到達最小值所應選擇的方向。我們將在后文更詳細地介紹這一點。

最小值

在上圖中，我們可以在綠點畫一條切線，我們知道，如果我們向上移動，我們就將遠離最小值或者反過來。另外，這條切線也能讓我們了解斜率的陡峭程度。

藍點處的斜率沒有綠點處陡，這意味著從藍點到達最小值所需的步幅比在綠點處要小得多。

成本函數的數學解釋

現在，讓我們將上面介紹的一切寫成數學公式。在等式 y = mX+b 中，m 和 b 是其參數。在訓練過程中，它們的值會進行較小的變化。我們將這個小變化表示成δ。參數的值將分別以m=m-δm和 b=b-δb 的方式更新。這里我們的目標是找到y=mx+b 中能使誤差最小的 m 和 b 值，即最小化成本函數的值。

重寫成本函數：