当前位置：首页 > news >正文

大模型-微调与对齐-人类对齐背景与标准

news 2025/4/4 12:48:13

1、目的

确保大模型的行为与人类价值观、人类真实意图和社会伦理相一致

2、大模型有害行为

无法正确遵循指令
生成虚假信息
产生有害、有误导性、有偏见的表达

3、评估标准

有用性
诚实性
无害性

4、更细化的对齐标准

行为对齐：要求AI能够做出符合人类期望的行为
意图对齐：要求AI能够与人类意图对齐
道德对齐：要求AI避免设计非法、不道德、有害的话题，在回应中优先考虑用户安全、道德准确性和行为边界

5、人类对齐方法

基于人类反馈的强化学习
监督微调
红队攻击

http://www.mrgr.cn/news/67719.html

相关文章：

【Linux】冯诺依曼体系、再谈操作系统

使用Postman搞定各种接口token实战

自动驾驶革命：从特斯拉到百度，谁将主宰未来交通？

hcitool命令和bluetoothctl命令

linux文件重命名

HTB：Nibbles[WriteUP]

实战：Python+ Flask轻松实现Mock Server

【AD】3-1 原理图页的大小及自定义设置

构建可视化站点地图：提升用户体验

Oracle 迁移到 OB 过程中的函数改造案例

AP5001A AP系列模拟信号源

标签权重的计算方法之贝叶斯平滑

Postman上传图片如何处理

M1M2 MAC安装windows11 虚拟机的全过程

Oracle 数据库特性一图快速了解

元学习法Meta-Learner

跨域及解决跨域

受保护的视图取消方法

MQTT从入门到精通之MQTT进阶

网站robots文件怎么优化？robots.txt文件的作用及生成