HyperAI超神经

摘要

多模态大语言模型（MLLMs）在融合视觉与文本理解方面取得了显著进展。然而，其从多模态输入生成代码的能力仍然有限。在本工作中，我们提出VisCodex——一种统一框架，可无缝融合视觉模型与代码语言模型，从而赋予MLLM强大的多模态代码生成能力。我们采用基于任务向量的模型融合技术，将最先进的代码大语言模型（LLM）整合到强大的视觉-语言主干模型中，同时有效保留了模型的视觉理解能力与高级代码生成技能。为支持训练与评估，我们构建了多模态编程数据集（Multimodal Coding Dataset, MCD），该数据集规模庞大且多样化，包含59.8万条样本，涵盖高质量HTML代码、图表图像-代码配对、图像增强型StackOverflow问答对以及算法类问题。此外，我们提出了InfiBench-V——一个新颖且具有挑战性的基准测试集，专门用于评估模型在富含视觉信息、真实世界编程场景下的表现，要求模型对文本与视觉上下文具备精细的理解能力。大量实验表明，VisCodex在开源多模态大语言模型中达到当前最优性能，其表现已接近GPT-4o等专有模型，充分验证了我们所提出的模型融合策略以及新数据集的有效性。

摘要

VisCodex：通过融合视觉与编码模型实现统一的多模态代码生成

Lingjie Jiang Shaohan Huang Xun Wu Yixia Li Dongdong Zhang Furu Wei

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters

VisCodex：通过融合视觉与编码模型实现统一的多模态代码生成

Lingjie Jiang Shaohan Huang Xun Wu Yixia Li Dongdong Zhang Furu Wei

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters

Command Palette

VisCodex：通过融合视觉与编码模型实现统一的多模态代码生成

Lingjie Jiang Shaohan Huang Xun Wu Yixia Li Dongdong Zhang Furu Wei

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters

Command Palette

VisCodex：通过融合视觉与编码模型实现统一的多模态代码生成

Lingjie Jiang Shaohan Huang Xun Wu Yixia Li Dongdong Zhang Furu Wei

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters