当前位置: 首页 > news >正文

大模型的安全机制

大模型的安全机制

大模型的安全机制一般有两套,一个是在训练时发挥作用,另外一个是在推理式发挥作用。

Training Time

训练时增加安全和价值观对齐的SFT(有监督的微调)和偏好对齐数据。最终效果是有用的,但是很容易Jailbreak。

Reasoning Time

在推理式增加安全算子有如下2个办法:

  • 多个基于BERTM等小model的分类器,每个分类器可以偏向于某个领域(例如血腥),流式输出时可以一句一句的分类,然后API再做成Token级流式效果。
  • 关键词、正则以及语义匹配,出发后直接返回特定话术。优点可以快速的在线修复,语义匹配可以通过Embedding 检索实现即可。

但是这个技术难点在于用于训练分类器的大量标注好的非安全数据。其次,模型要做的足够快,最小化影响ttft(time to first token)和tps(transaction per second)。


http://www.mrgr.cn/news/45987.html

相关文章:

  • 从零开始:用Python编写自己的简单游戏
  • 大话C++:第15篇 友元
  • 如何使用Python连接和操作MySQL数据库?请提供示例代码。
  • 产品推介——施密特触发器光耦KLH11LX产品系列
  • 007集—— 自动获取图形的外边界(外轮廓)(CAD—C#二次开发入门)
  • 【AUTOSAR 基础软件】PduR模块详解(通信路由)
  • 小巧简单的JAVA字节码开源编辑器
  • 工业物联网关-功能概述
  • mount 挂载用法
  • ML 系列:机器学习和深度学习的深层次总结(14) — 逻辑回归(第 3 部分 — 实施)
  • 「软件设计哲学」于延保代码改造中的实践
  • Istio Pilot xDS Sidecar
  • tauri开发Mac电脑Safari浏览器一个很奇怪的问题:在 input 输入框输入的是全小写英文字母,会自动将首字母转换为大写解决办法
  • 离职后才知道的那些事儿
  • MySQL SQL 优化指南:主键、ORDER BY、GROUP BY 和 UPDATE 优化详解
  • stateflow一些数据依赖关系的使用
  • Ubuntu下v4l2采集摄像头视频
  • 项目开发--大模型--个人问答知识库--chain控制
  • en造数据结构与算法C# 之 动态规划
  • Nodejs连接Mysql笔记