当前位置: 首页 > news >正文

强化学习原理二 BasicConcepts

  • 状态,State
    • 状态空间,State Space
  • 行动,Action
  • 状态转换,state transition
  • 策略,Policy
    • 用数组或者矩阵表示这样一个策略
  • 奖励,Reward
    • 不确定的话,表格就不适用了。这个时候就要用数学来表示:p(r=-1|s1,a1)=1 and p(r!=-1|s1,a1)=0
  • 轨迹,Trajectory A Trajectory is a state-action-reward chain.
    • 返回,return 可以用来评估一个策略好还是坏
    • discount rate
    • discounted return
  • Episode
    • terminal states
  • MDP Markov  Decision Process
    • Sets
      • State
      • Action
      • Reward
    • Policy
    • Probablity distribute
    • Markov property

http://www.mrgr.cn/news/97789.html

相关文章:

  • 树和图论【详细整理,简单易懂!】(C++实现 蓝桥杯速查)
  • 01背包 Java
  • STM32 HAL库之EXTI示例代码
  • Java基础 4.9
  • 【C++游戏引擎开发】第11篇:GLFW、GLAD环境搭建与第一个三角形渲染
  • 微服务之间调用外键“翻译”的方法概述
  • aws平台练习
  • DFS--
  • 【场景应用2】speech_recognition: 微调语音模型
  • 【后端开发】Spring MVC-常见使用、Cookie、Session
  • Hi Robot——大脑加强版的π0:基于「VLM的高层次推理+ VLA低层次任务执行」的复杂指令跟随及交互式反馈
  • C++中STL学习(一)——向量、栈、堆、集合
  • 操作符详解(下)——包含整形提升
  • 第1节:计算机视觉发展简史
  • 系统分析师(二)--操作系统
  • SQLI打靶
  • Pascal VOC 2012 数据集格式与文件结构
  • Python 网络请求利器:requests 包详解与实战
  • 配置与管理代理服务器
  • 解决前后端时区不一致问题