当前位置: 首页 > news >正文

机器学习 | 强化学习基本原理 | MDP | TD | PG | TRPO

文章目录

  • 📚什么是强化学习
    • 🐇监督学习 vs 强化学习
    • 🐇马尔科夫决策过程(MDP)
  • 📚基本算法(value-based & policy-based)
    • 🐇时序差分算法(TD)
    • 🐇SARSA和Q-learning
    • 🐇策略梯度算法(PG)
    • 🐇REINFORCE和Actor-Critic
    • 🐇信任区域策略优化算法(TRPO)


⭐️参考博客与学习视频

  • 【大白话03】一文理清强化学习RL基本原理 | 原理图解+公式推导
  • 【深度强化学习】我居然3天时间就掌握了强化学习的理论到实战
  • 策略梯度 (Policy Gradient):直接优化策略的强化学习方法

📚什么是强化学习

🐇监督学习 vs 强化学习

  • 详见上文:

http://www.mrgr.cn/news/98433.html

相关文章:

  • UE5 Chaos :官方文献总结 + 渲染网格体 (Render Mesh) 和模拟网格体 是如何关联的?为什么模拟网格体 可以驱动渲染网格体?
  • 单链表各种操作实现(数据结构C语言多文件编写)
  • Cesium.js(7):地图、地形的加载
  • 双链表各种操作实现(数据结构C语言多文件编写)
  • ubuntu18.04安装miniforge3
  • Base64在线编码解码 - 加菲工具
  • 【JavaEE】SpringBoot 统一功能处理
  • 【图解】系统设计学习笔记
  • +++++背到厌倦。持续更新
  • composer报错的处理方案
  • 【VUE3】练习项目——大事件后台管理
  • Android studio消息同步机制:消息本地存储,服务器交互减压
  • Nodejs Express框架
  • linux 进程信号
  • 批处理脚本bat丨遍历一个包含项目名称的数组,并对每个文件中的项目执行 git pull 操作 (一键拉很多文件的代码)
  • C++ Json-Rpc框架-3项目实现(2)
  • hive数仓要点总结
  • Apache Hive学习教程
  • [Dify] 使用 Docker 本地部署 Dify 并集成 Ollama 模型的详细指南
  • (2025亲测可用)Chatbox多端一键配置Claude/GPT/DeepSeek-网页端配置