当前位置: 首页 > news >正文

大模型-微调与对齐-人类对齐背景与标准

1、目的

确保大模型的行为与人类价值观、人类真实意图和社会伦理相一致

2、大模型有害行为
  • 无法正确遵循指令
  • 生成虚假信息
  • 产生有害、有误导性、有偏见的表达
3、评估标准
  • 有用性
  • 诚实性
  • 无害性
4、更细化的对齐标准
  • 行为对齐:要求AI能够做出符合人类期望的行为
  • 意图对齐:要求AI能够与人类意图对齐
  • 道德对齐:要求AI避免设计非法、不道德、有害的话题,在回应中优先考虑用户安全、道德准确性和行为边界
5、人类对齐方法
  • 基于人类反馈的强化学习
  • 监督微调
  • 红队攻击

http://www.mrgr.cn/news/67719.html

相关文章:

  • MySQL 8.0 中多字段虚拟列引发的宕机
  • 王健林,被好兄弟追债89亿
  • 使用k8s RBAC和ValidatingAdmissionPolicy 配合来校验用户权限
  • 市场分化!汽车零部件「变天」
  • 【LeetCode】【算法】148. 排序链表
  • 防火墙|WAF|漏洞|网络安全
  • 【Linux】冯诺依曼体系、再谈操作系统
  • 使用Postman搞定各种接口token实战
  • 自动驾驶革命:从特斯拉到百度,谁将主宰未来交通?
  • hcitool命令和bluetoothctl命令
  • linux文件重命名
  • HTB:Nibbles[WriteUP]
  • 实战:Python+ Flask轻松实现Mock Server
  • 【AD】3-1 原理图页的大小及自定义设置
  • 构建可视化站点地图:提升用户体验
  • Oracle 迁移到 OB 过程中的函数改造案例
  • AP5001A AP系列模拟信号源
  • 标签权重的计算方法之贝叶斯平滑
  • Postman上传图片如何处理
  • M1M2 MAC安装windows11 虚拟机的全过程
  • Oracle 数据库特性一图快速了解
  • 元学习法Meta-Learner
  • 跨域及解决跨域
  • 受保护的视图取消方法
  • MQTT从入门到精通之MQTT进阶
  • 网站robots文件怎么优化?robots.txt文件的作用及生成