隨機梯度下降算法原理
來源:魅力女性吧 1.13W
原理
算法目標 逐漸逼近損失函數loss 的極小值,簡單抽象為求函數 的極小值。
2、
算法描述 每次取一個增量 ,使得 ,每次向函數值更小的地方前進一小步,多次迭代就能做到逐漸逼近函數 的極小值。
3、
算法推導 展開 得到公式 。 其中H為海森矩陣,暫且不考慮。為使 成立,只需要保證 。 即,當 時, ,如此即可保證每次更新在逐漸逼近函數的極小值。其中 為學習率是一個較小的正數。 每次更新時做 操作,求得 的最小值。
4、
注意 上述過程是在逼近極小值,不一定是函數的最小值。 是一種下降趨勢,整個循環步驟中函數值 在下降,並非每個小步驟得到的函數值都比前一次要小。