Command Palette
Search for a command to run...

摘要
在本报告中,我们推出Falcon-H1系列新型大语言模型(LLMs),该系列采用混合架构设计,在多种应用场景下均实现了高性能与高效率的优化。与早期仅基于Transformer或Mamba架构的Falcon模型不同,Falcon-H1采用并行式混合架构,融合了基于Transformer的注意力机制与状态空间模型(SSMs),后者以卓越的长上下文记忆能力与计算效率著称。我们系统性地重新审视了模型设计、数据策略与训练动态,挑战了该领域内传统实践。Falcon-H1以多种配置发布,包括0.5B、1.5B、1.5B-Deep、3B、7B和34B参数量的基座模型及指令微调版本。同时,还提供了量化后的指令微调模型,总计在Hugging Face Hub上提供超过30个检查点。Falcon-H1系列模型展现出业界领先的表现,并具备极高的参数利用率与训练效率。其旗舰模型Falcon-H1-34B在性能上可媲美甚至超越规模高达70B的模型,如Qwen3-32B、Qwen2.5-72B和Llama3.3-70B,同时使用更少的参数与训练数据。在较小规模模型中亦呈现相似趋势:Falcon-H1-1.5B-Deep已可与当前主流的7B至10B级模型相媲美,而Falcon-H1-0.5B的性能则可与2024年典型7B级模型相当。这些模型在推理能力、数学计算、多语言任务、指令遵循以及科学知识理解等方面均表现优异。Falcon-H1支持最高达256K上下文令牌和18种语言,适用于广泛的下游应用。所有模型均采用宽松的开源许可协议发布,彰显我们推动可及性与高影响力人工智能研究的坚定承诺。