大模型的安全机制
大模型的安全机制
大模型的安全机制一般有两套,一个是在训练时发挥作用,另外一个是在推理式发挥作用。
Training Time
训练时增加安全和价值观对齐的SFT(有监督的微调)和偏好对齐数据。最终效果是有用的,但是很容易Jailbreak。
Reasoning Time
在推理式增加安全算子有如下2个办法:
- 多个基于BERTM等小model的分类器,每个分类器可以偏向于某个领域(例如血腥),流式输出时可以一句一句的分类,然后API再做成Token级流式效果。
- 关键词、正则以及语义匹配,出发后直接返回特定话术。优点可以快速的在线修复,语义匹配可以通过Embedding 检索实现即可。
但是这个技术难点在于用于训练分类器的大量标注好的非安全数据。其次,模型要做的足够快,最小化影响ttft(time to first token)和tps(transaction per second)。