HyperAI

日期

3 个月前

组织

论文 URL

2509.01909

标签

人工智能

建设性安全对齐（Constructive Safety Alignment, CSA）是由阿里巴巴集团安全部联合清华大学等高校于 2025 年 9 月联合提出的，相关研究成果发表于论文「Oyster-I: Beyond Refusal – Constructive Safety Alignment for Responsible Language Models」。

大语言模型（LLMs）通常会部署安全机制以防止生成有害内容。 CSA 不仅可以防止恶意滥用，而且可以主动引导非恶意用户实现安全和有益的结果。它超越了被动防御和一刀切的拒绝，转向主动、安全且有益的指导，将安全视为双重责任：不仅防止伤害，还要帮助用户识别合法和值得信赖的解决方案。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

日期

3 个月前

组织

论文 URL

2509.01909

标签

人工智能

靶向迁移式对抗攻击框架 FOA-Attack

联合对齐全局和局部特征，有效引导对抗样本朝向目标特征分布并增强可迁移性。

2 个月前

SAC Flow

SAC Flow 在连续控制和机器人操作基准测试中达到最先进性能。

2 个月前

UserBench 基准

UserBench 旨在评估和促进智能体理解、交互和适应现实世界用户沟通的能力。

3 个月前

Lancelot 框架

Lancelot 框架将全同态加密融入 BRFL 以实现严格的隐私保护。

2 个月前

分形水印 FractalForensics

FractalForensics 在常见图像处理操作和 Deepfake 操作上有较好的鲁棒性和脆弱性。

2 个月前

归一化时空梯度 NSG

NSG 统计量量化了空间概率梯度与时间密度变化的比例。

2 个月前

在线强化学习框架 ReinFlow

ReinFlow 具有轻量级实现、内置探索功能，并能广泛适用于各种流策略变体。

2 个月前

ScaleNet

ScaleNet 是一种通过权重共享扩展预训练视觉 Transformer（ViT）的新方法。

2 个月前

潜在扩散模型 SVG

SVG 实现了更快的扩散训练、高效的少步采样以及生成质量的提升。

2 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

建设性安全对齐 CSA | Wiki | HyperAI超神经

Command Palette

建设性安全对齐 CSA

用 AI 构建 AI

HyperAI Newsletters

Command Palette

建设性安全对齐 CSA

相关百科

靶向迁移式对抗攻击框架 FOA-Attack

SAC Flow

UserBench 基准

Lancelot 框架

分形水印 FractalForensics

归一化时空梯度 NSG

在线强化学习框架 ReinFlow

ScaleNet

潜在扩散模型 SVG

用 AI 构建 AI

HyperAI Newsletters

Command Palette

建设性安全对齐 CSA

相关百科

靶向迁移式对抗攻击框架 FOA-Attack

SAC Flow

UserBench 基准

Lancelot 框架

分形水印 FractalForensics

归一化时空梯度 NSG

在线强化学习框架 ReinFlow

ScaleNet

潜在扩散模型 SVG

用 AI 构建 AI

HyperAI Newsletters

相关百科

靶向迁移式对抗攻击框架 FOA-Attack

SAC Flow

UserBench 基准

Lancelot 框架

分形水印 FractalForensics

归一化时空梯度 NSG

在线强化学习框架 ReinFlow

ScaleNet

潜在扩散模型 SVG

相关百科

靶向迁移式对抗攻击框架 FOA-Attack

SAC Flow

UserBench 基准

Lancelot 框架

分形水印 FractalForensics

归一化时空梯度 NSG

在线强化学习框架 ReinFlow

ScaleNet

潜在扩散模型 SVG