文章目录
- 📚什么是强化学习
- 🐇监督学习 vs 强化学习
- 🐇马尔科夫决策过程(MDP)
- 📚基本算法(value-based & policy-based)
- 🐇时序差分算法(TD)
- 🐇SARSA和Q-learning
- 🐇策略梯度算法(PG)
- 🐇REINFORCE和Actor-Critic
- 🐇信任区域策略优化算法(TRPO)
⭐️参考博客与学习视频
- 【大白话03】一文理清强化学习RL基本原理 | 原理图解+公式推导
- 【深度强化学习】我居然3天时间就掌握了强化学习的理论到实战
- 策略梯度 (Policy Gradient):直接优化策略的强化学习方法
📚什么是强化学习
🐇监督学习 vs 强化学习