Command Palette

Search for a command to run...

5 个月前

快手 Keye-VL 技术报告

快手 Keye-VL 技术报告

摘要

虽然多模态大语言模型(MLLMs)在静态图像上展示了显著的能力,但它们在理解和处理当今数字环境中占主导地位的动态、信息密集型短视频方面往往表现不佳。为了弥补这一差距,我们推出了快手Keye-VL,这是一款具有80亿参数的多模态基础模型,旨在实现短视频理解领域的前沿性能,同时保持强大的通用视觉-语言能力。Keye-VL的开发基于两个核心支柱:一个超过6000亿个标记的大规模、高质量数据集,特别强调视频内容;以及一种创新的训练方法。该训练方法包括四个阶段的预训练过程,以确保视觉-语言对齐的稳固性,随后是一个细致的两阶段后训练过程。第一阶段后训练旨在增强基础能力,如指令遵循;第二阶段则专注于激发高级推理能力。在这一阶段,我们的关键创新之一是五模式“冷启动”数据混合(five-mode "cold-start" data mixture),其中包括“思考”、“非思考”、“自动思考”、“带图思考”和高质量视频数据。这种混合数据教会模型何时以及如何进行推理。后续的强化学习(RL)和对齐步骤进一步提升了这些推理能力,并纠正了模型的一些异常行为,例如重复输出。为了验证我们的方法,我们进行了广泛的评估,结果显示Keye-VL在公开视频基准测试中达到了最先进的水平,并且在通用图像任务中仍然表现出色(图1)。此外,我们还开发并发布了KC-MMBench,这是一个针对现实世界短视频场景的新基准测试,在该基准测试中Keye-VL显示出明显的优势。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
快手 Keye-VL 技术报告 | 论文 | HyperAI超神经