HyperAI

摘要

我们介绍了在红队测试语言模型方面的早期探索工作，旨在同时发现、衡量并尝试降低模型潜在的有害输出。本文主要贡献有三方面：第一，我们系统研究了在三种模型规模（27亿、130亿和520亿参数）和四种模型类型下的红队测试扩展规律，这四类模型分别为：基础语言模型（LM）、被提示以提供帮助、诚实且无害的模型、采用拒绝采样（rejection sampling）的模型，以及通过人类反馈强化学习（RLHF）训练以实现有益性和无害性的模型。研究发现，随着规模扩大，RLHF模型的红队测试难度显著增加，而其他模型类型则未表现出明显的规模趋势。第二，我们公开发布了包含38,961条红队攻击样本的数据集，供其他研究者分析与学习。我们对数据集进行了初步分析，发现其中包含多种有害输出，从冒犯性语言到更隐蔽的非暴力但不道德的内容均有涵盖。第三，我们详尽地描述了红队测试所采用的指令设计、执行流程、统计方法以及相关不确定性因素。我们希望这种透明性能够推动整个研究社区协同合作，共同建立关于语言模型红队测试的共享规范、实践方法与技术标准。

代码仓库

anthropics/hh-rlhf

官方

GitHub 中提及

lyqcom/red30

mindspore

摘要

代码仓库

anthropics/hh-rlhf

官方

GitHub 中提及

lyqcom/red30

mindspore

对语言模型进行红队测试以减少危害：方法、扩展行为与经验教训

Deep Ganguli Liane Lovitt Jackson Kernion Amanda Askell Yuntao Bai et al

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters

对语言模型进行红队测试以减少危害：方法、扩展行为与经验教训

Deep Ganguli Liane Lovitt Jackson Kernion Amanda Askell Yuntao Bai et al

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters

Command Palette

对语言模型进行红队测试以减少危害：方法、扩展行为与经验教训

Deep Ganguli Liane Lovitt Jackson Kernion Amanda Askell Yuntao Bai et al

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters

Command Palette

对语言模型进行红队测试以减少危害：方法、扩展行为与经验教训

Deep Ganguli Liane Lovitt Jackson Kernion Amanda Askell Yuntao Bai et al

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters