Command Palette

Search for a command to run...

3 个月前

对语言模型进行红队测试以减少危害:方法、扩展行为与经验教训

Deep Ganguli Liane Lovitt Jackson Kernion Amanda Askell Yuntao Bai et al

对语言模型进行红队测试以减少危害:方法、扩展行为与经验教训

摘要

我们介绍了在红队测试语言模型方面的早期探索工作,旨在同时发现、衡量并尝试降低模型潜在的有害输出。本文主要贡献有三方面:第一,我们系统研究了在三种模型规模(27亿、130亿和520亿参数)和四种模型类型下的红队测试扩展规律,这四类模型分别为:基础语言模型(LM)、被提示以提供帮助、诚实且无害的模型、采用拒绝采样(rejection sampling)的模型,以及通过人类反馈强化学习(RLHF)训练以实现有益性和无害性的模型。研究发现,随着规模扩大,RLHF模型的红队测试难度显著增加,而其他模型类型则未表现出明显的规模趋势。第二,我们公开发布了包含38,961条红队攻击样本的数据集,供其他研究者分析与学习。我们对数据集进行了初步分析,发现其中包含多种有害输出,从冒犯性语言到更隐蔽的非暴力但不道德的内容均有涵盖。第三,我们详尽地描述了红队测试所采用的指令设计、执行流程、统计方法以及相关不确定性因素。我们希望这种透明性能够推动整个研究社区协同合作,共同建立关于语言模型红队测试的共享规范、实践方法与技术标准。

代码仓库

anthropics/hh-rlhf
官方
GitHub 中提及
lyqcom/red30
mindspore

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
对语言模型进行红队测试以减少危害:方法、扩展行为与经验教训 | 论文 | HyperAI超神经