当前位置：首页 > news >正文

sheng的学习笔记-AI-强化学习（Reinforcement Learning, RL）

news 2025/12/21 8:46:00

AI目录：sheng的学习笔记-AI目录-CSDN博客

基础知识

什么是强化学习

强化学习（Reinforcement Learning, RL），又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题

举例说明

以种西瓜举例

种瓜有许多步骤，从一开始的选种，到定期浇水、施肥、除草、杀虫，经过一段时间才能收获西瓜。通常要等到收获后，我们才知道种出的瓜好不好。若将得到好瓜作为辛勤种瓜劳动的奖赏，则在种瓜过程中当我们执行某个操作（例如，施肥）时，并不能立即获得这个最终奖赏，甚至难以判断当前操作对最终奖赏的影响，仅能得到一个当前反馈（例如，瓜苗看起来更健壮了）。我们需多次种瓜，在种瓜过程中不断摸索，然后才能总结出较好的种瓜策略。这个过程抽象出来，就是“强化学习”

原理

强化学习任务通常用马尔可夫决策过程（Markov Decision Process，简称MDP）来描述：

机器处于环境E中，状态空间为X，其中每个状态x∈X是机器感知到的环境的描述，如在种瓜任务上这就是当前瓜苗长势的描述；

机器能采取的动作构成了动作空间A，如种瓜过程中有浇水、施不同的肥、使用不同的农药等多种可供选择的动作；若某个动作α∈A作用在当前状态x上，则潜在的转移函数P将使得环境从当前状态按某种概率转移到另一个状态，如瓜苗状态为缺水，若选择动作浇水，则瓜苗长势会发生变化，瓜苗有一定的概率恢复健康，也有一定的概率无法恢复；在转移到另一个状态的同时，环境会根据潜在的“奖赏”(reward)函数R反馈给机器一个奖赏，如保持瓜苗健康对应奖赏+1，瓜苗凋零对应奖赏-10，最终种出了好瓜对应奖赏+100.

综合起来，强化学习任务对应了四元组E=〈X,A,P,R〉，其中P指定了状态转移概率，R指定了奖赏；在有的应用中，奖赏函数可能仅与状态转移有关。