当前位置：首页 > news >正文

机器学习 | 强化学习基本原理 | MDP | TD | PG | TRPO

news 2025/4/15 21:21:21

文章目录

📚什么是强化学习
- 🐇监督学习 vs 强化学习
- 🐇马尔科夫决策过程（MDP）
📚基本算法（value-based & policy-based）
- 🐇时序差分算法（TD）
- 🐇SARSA和Q-learning
- 🐇策略梯度算法（PG）
- 🐇REINFORCE和Actor-Critic
- 🐇信任区域策略优化算法（TRPO）

⭐️参考博客与学习视频

【大白话03】一文理清强化学习RL基本原理 | 原理图解+公式推导
【深度强化学习】我居然3天时间就掌握了强化学习的理论到实战
策略梯度 (Policy Gradient)：直接优化策略的强化学习方法

📚什么是强化学习

🐇监督学习 vs 强化学习

详见上文：

http://www.mrgr.cn/news/98433.html

相关文章：

UE5 Chaos ：官方文献总结 + 渲染网格体 (Render Mesh）和模拟网格体是如何关联的？为什么模拟网格体可以驱动渲染网格体？

单链表各种操作实现（数据结构C语言多文件编写）

Cesium.js（7）：地图、地形的加载

双链表各种操作实现（数据结构C语言多文件编写）

ubuntu18.04安装miniforge3

Base64在线编码解码 - 加菲工具

【JavaEE】SpringBoot 统一功能处理

【图解】系统设计学习笔记

+++++背到厌倦。持续更新

composer报错的处理方案

【VUE3】练习项目——大事件后台管理

Android studio消息同步机制：消息本地存储，服务器交互减压

Nodejs Express框架

linux 进程信号

批处理脚本bat丨遍历一个包含项目名称的数组，并对每个文件中的项目执行 git pull 操作（一键拉很多文件的代码）

C++ Json-Rpc框架-3项目实现(2)

hive数仓要点总结

Apache Hive学习教程

[Dify] 使用 Docker 本地部署 Dify 并集成 Ollama 模型的详细指南

（2025亲测可用）Chatbox多端一键配置Claude/GPT/DeepSeek-网页端配置