[翻译] 审慎对齐：推理促进更安全的语言模型

随着大规模语言模型在安全关键领域的影响力日益增加，确保其可靠地遵守明确定义的原则仍然是一项根本性挑战。我们提出“深思熟虑的对齐”（Deliberative Alignment），这是一种直接教模型安全规范，并训练模型在回答前显式回忆并准确推理这些规范的新范式。我们使用该方法对OpenAI的o系列模型进行了对齐，实现了对OpenAI安全策略的高度精准遵守，且无需人工编写的链式思维或答案。深思熟虑的对齐推动了帕累托前沿，同时提高了对越狱攻击的鲁棒性，降低了过度拒绝率，并且改善了分布外泛化能力。我们证明，基于显式规范的推理能够实现更加可扩展、值得信赖和可解释的对齐。

引言
现代大规模语言模型（LLM）通过监督微调（SFT）和人类反馈强化学习（RLHF）进行安全训练，以减轻有害、不希望出现或其他被禁止输出的问题。尽管这些方法不断进步，当前模型仍存在安全短板：它们可能被诱导泄露有害内容，经常拒绝合法请求，并且仍易受越狱攻击影响。我们认为，这些失败主要源于现代安全训练的两个限制。一是LLM必须即时响应用户请求，在固定的计算资源下做出反应，无法在复杂安全场景中进行深思熟虑。二是LLM必须通过大量标注样本间接推断背后的安全标准，而非直接学习其所遵循的安全规范。这种依赖隐式、基于模式的学习导致数据效率低下，且模型在面对陌生场景或对抗性攻击时泛化能力不足。
我们提出深思熟虑的对齐，这是一种训练方法，使LLM能够在生成答案前，显式地通过安全规范进行推理。通过将此方法应用于OpenAI的o系列模型，我们使模型能够利用链式思维（CoT）解析用户输入，识别相关政策指南，并生成更安全的回答（见图1）。
我们的训练方法包含两个核心阶段，融合了过程监督与结果监督。在第一阶段，我们通过对含有引用安全规范的（提示、链式思维、输出）示例进行监督微调，教模型直接围绕安全规范进行推理。我们利用上下文蒸馏技术，以及仅进行助理性训练（无安全相关数据）的o型模型，构建该数据集。具体做法是将安全规范作为系统提示呈现给模型，生成模型回答后移除系统提示，形成最终数据。此阶段为模型的安全推理提供了强有力的先验。

图1：一个示例的思维链。在这里，用户试图获取有关用于成人网站的不可追踪付款方式的建议，以避免被执法部门发现。用户尝试通过编码请求并附加旨在鼓励模型遵从的指令来绕过模型的限制。在模型的思维链中，模型解码了请求并识别出用户试图欺骗它（黄色高亮部分）。模型成功推理了相关的OpenAI安全政策（绿色高亮部分），最终提供了遵循严格拒绝风格指南的答案。
第二阶段，我们使用高计算量的强化学习训练模型更有效地思考。为此，我们采用一个依据安全规范进行评判的裁判型LLM来提供奖励信号。
值得注意的是，整个训练流程_无需人工标注的完成示例_。尽管完全依赖模型生成数据，我们仍实现了高度精准的规范遵守。这解决了当前LLM安全训练高度依赖人类大规模标注数据的重大挑战：随着LLM能力提升，具备相应标注资格的人力不断减少，使安全训练的规模化变得愈发困难。深思熟虑对齐的合成数据生成流程提供了可扩展的对齐方案，将人类专业知识保留用于评估环节。
我们将o1模型与GPT-4o及其他最先进LLM在一系列内部和外部安全基准（如越狱测试和内容政策拒绝评估）中进行了对比。o1模型在减少拒绝过度与拒绝不足两方面实现帕累托改进（见图2），并在许多最难的安全基准中达到饱和性能。此外，深思熟虑的对齐展现了很强的分布外安全场景泛化能力。详细消融研究显示，过程监督提供了强有力的先验，而基于结果的强化学习则精细化了链式思维的安全推理。总体来看，我们的结果表明，链式思维推理能够利用推理时的计算资源，提升模型的安全行为，最终训练出“理由正确、结果正确”的LLM。

图2：主要安全性结果。与GPT-4o及其他最先进的大型语言模型相比，o1模型在拒绝回答恶意绕过提示（来自StrongREJECT [12]）和不过度拒绝良性提示（来自XSTest [13]）方面推动了帕累托前沿的发展。误差线表示通过1000次自助抽样试验计算得出的标准差估计值。
方法
我们提出深思熟虑对齐方法的动机源于以下观察：当获得实际安全策略内容时，o1模型通常能够正确推理如何回应潜在不安全的提示。因此，一种自然的做法是，在部署时将所有安全规范文本放入上下文中，指示模型在回答前检查所有政策。然而，这种做法明显带来了延迟成本：对于绝大多数良性用户提示，逐页推理安全规范显得过于繁琐。此外，如果模型未能遵循指令，可能会遗漏相关政策部分，从而输出不安全内容。
深思熟虑对齐则致力于将安全规范知识直接嵌入基础模型，通过训练模型识别何时某条政策可能相关，进而围绕该政策进行推理，产出符合政策的回答。正如我们在第4.1节所发现的，深思熟虑对齐比部署时直接提供规范更可靠地使模型与规范保持一致。以下内容首先介绍方法的整体概要，随后在后续小节中详细展开各步骤。
概述
我们定义生成推理模型G为接受提示输入，并生成包含链式思维（CoT）推理过程的输出的模型。给定一个初始推理模型G_base，我们旨在构建生成推理模型G_spec，其回答符合安全规范（简称spec）。我们通过两个阶段训练模型：先是监督微调，随后是强化学习。图3展示了整体方法。

图3：整体方法示意图。关键过程显示在图的底部。我们首先构建一个包含（提示，思维链，输出）元组的数据集，其中思维链引用相关政策（左上方放大框）。我们通过使用带有针对安全类别（cat）定制的安全规范（spec）的安全提示，来提示推理模型Gbase收集这些数据。经过具有政策感知的奖励模型（GRM）过滤后，这些数据被用于监督微调（SFT）训练，教模型在思维链中推理规范内容。在强化学习（RL）训练阶段（右上方放大框），我们使用同一奖励模型GRM并访问规范，提供奖励信号。最终得到的模型Gspec与安全规范保持一致。
从宏观步骤来看，方法包括：

数据生成
我们从带有安全类别（如色情、自残）的提示集合开始。针对每个（提示，类别）对，构建与该类别相关的安全规范，包含禁止内容和风格信息。然后，我们通过在基线无规范推理模型G_base上附加安全规范文本进行提示，收集引用政策的链式思维（CoT）及对应的输出。
过滤
使用带有规范的“裁判”推理模型G_RM对生成内容判定质量，筛选高质量完形。之后去除提示中的规范文本，形成一系列（提示，CoT，输出）三元组。
监督微调（SFT）
采用筛选后的数据对G_base进行监督微调训练，使模型通过引用CoT中的政策内容，以规范对齐的方式完成提示。
强化学习（RL）
在RL阶段，对于安全相关提示，继续使用具备安全规范的“裁判”模型G_RM提供奖励信号，进一步提升模型安全表现。

接下来的小节将详细阐述流程细节。
安全规范
我们旨在使模型G_spec符合的安全规范包括不同安全类别的内容政策，以及如何响应的风格指南。安全类别示例有色情内容、极端主义、骚扰、非法行为、受监管建议、自残和暴力等。每个类别的内容政策定义了相关术语，并说明用户请求在哪些情况下：（1）为“允许”内容，模型应遵从；（2）为“不允许”，模型应拒绝；（3）需要

...(已截断)

---
来源: 看雪论坛
原文链接: https://bbs.kanxue.com/thread-287999.htm