什麼是加強學習

來源：魅力女性吧 1.01W

強化學習（Reinforcement Learning， RL），又稱再勵學習、評價學習或增強學習，是機器學習的範式和方法論之一，用於描述和解決智能體（agent）在與環境的交互過程中通過學習策略以達成回報最大化或實現特定目標的問題。強化學習的常見模型是標準的馬爾可夫決策過程（Markov Decision Process， MDP）。

按給定條件，強化學習可分為基於模式的強化學習（model-based RL）和無模式強化學習（model-free RL），以及主動強化學習（active RL）和被動強化學習（passive RL）。

強化學習的變體包括逆向強化學習、階層強化學習和部分可觀測系統的強化學習。求解強化學習問題所使用的算法可分為策略搜索算法和值函數（value function）算法兩類。

深度學習模型可以在強化學習中得到使用，形成深度強化學習。強化學習理論受到行為主義心理學啟發，側重在線學習並試圖在探索-利用（exploration-exploitation）間保持平衡。

不同於監督學習和非監督學習，強化學習不要求預先給定任何數據，而是通過接收環境對動作的獎勵（反饋）獲得學習信息並更新模型參數。強化學習問題在信息論、博弈論、自動控制等領域有得到討論，被用於解釋有限理性條件下的平衡態、設計推薦系統和機器人交互系統。一些複雜的強化學習算法在一定程度上具備解決複雜問題的通用智能，可以在圍棋和電子遊戲中達到人類水平。

學習

熱門標籤