当前位置：首页 > news >正文

大模型的安全机制

news 2025/4/28 10:38:00

大模型的安全机制

大模型的安全机制一般有两套，一个是在训练时发挥作用，另外一个是在推理式发挥作用。

Training Time

训练时增加安全和价值观对齐的SFT（有监督的微调）和偏好对齐数据。最终效果是有用的，但是很容易Jailbreak。

Reasoning Time

在推理式增加安全算子有如下2个办法：

多个基于BERTM等小model的分类器，每个分类器可以偏向于某个领域（例如血腥），流式输出时可以一句一句的分类，然后API再做成Token级流式效果。
关键词、正则以及语义匹配，出发后直接返回特定话术。优点可以快速的在线修复，语义匹配可以通过Embedding 检索实现即可。

但是这个技术难点在于用于训练分类器的大量标注好的非安全数据。其次，模型要做的足够快，最小化影响ttft（time to first token）和tps（transaction per second）。

http://www.mrgr.cn/news/45987.html

相关文章：

从零开始：用Python编写自己的简单游戏

大话C++：第15篇友元

如何使用Python连接和操作MySQL数据库？请提供示例代码。

产品推介——施密特触发器光耦KLH11LX产品系列

007集—— 自动获取图形的外边界（外轮廓）（CAD—C#二次开发入门）

【AUTOSAR 基础软件】PduR模块详解（通信路由）

小巧简单的JAVA字节码开源编辑器

工业物联网关-功能概述

mount 挂载用法

ML 系列：机器学习和深度学习的深层次总结(14) — 逻辑回归（第 3 部分 — 实施）

「软件设计哲学」于延保代码改造中的实践

Istio Pilot xDS Sidecar

tauri开发Mac电脑Safari浏览器一个很奇怪的问题：在 input 输入框输入的是全小写英文字母，会自动将首字母转换为大写解决办法

离职后才知道的那些事儿

MySQL SQL 优化指南：主键、ORDER BY、GROUP BY 和 UPDATE 优化详解

stateflow一些数据依赖关系的使用

Ubuntu下v4l2采集摄像头视频

项目开发--大模型--个人问答知识库--chain控制

en造数据结构与算法C# 之动态规划

Nodejs连接Mysql笔记