面壁小钢炮4.0发布:最高220倍提速,开启端侧长文本时代

<{$news["createtime"]|date_format:"%Y-%m-%d %H:%M"}>  IPO早知道 4308阅读 2025-06-10 12:44


首个系统级上下文稀疏化高效创新模型。

本文为IPO早知道原创

作者|Stone Jin

据IPO早知道消息,面壁智能于日前举行的2025智源大会上发布了新一代「面壁小钢炮」MiniCPM4.0端侧模型发布。一款8B稀疏闪电版,带来端侧性能创新式大跃升;一款0.5B实力演绎以小博大,适配广泛终端场景。

值得一提的是,第四代小钢炮推出了首个原生稀疏模型,5%的极高稀疏度加持系统级创新技术的大爆发,让长文本、深思考在端侧真正跑起来,宣告了端侧长文本时代到来;220倍极限加速,一半参数翻倍性能的表现,则继续带来端侧基模最极致表现。


具体来讲,面对此前端侧模型长文本「龟速推理」业界难题,MiniCPM 4-8B「闪电稀疏版」,采用了新一代上下文稀疏高效架构,相较于同等参数规模端侧模型实现了长文本推理速度5倍常规加速以及最高220倍加速(显存受限极限场景下测出),真正让端侧模型长文本推理实现了「快如闪电」的质变。此外,注意力机制上实现了高效双频换挡,长文本用稀疏,短文本用稠密,切换快如流。

同时,MiniCPM 4.0推出端侧性能“大小王”组合,拥有8B 、0.5B两种参数规模,延续「以小博大」特性,实现了同级最佳的模型性能。其中,MiniCPM 4.0-8B模型为稀疏注意力模型,在MMLU、CEval、MATH500、HumanEval等基准测试中,以仅22%的训练开销,性能比肩Qwen-3-8B,超越Gemma-3-12B。MiniCPM 4.0-0.5B在性能上相较更大的Qwen-3-0.6B、Llama 3.2, 仅2.7%的训练开销,一半参数性能翻倍,并实现了最快600 Token/s的极速推理速度。

此外,MiniCPM 4.0持续卫冕全球最强端侧模型,并进一步实现了长文本缓存的大幅锐减,在128K长文本场景下,MiniCPM 4.0-8B相较于Qwen3-8B仅需1/4 的缓存存储空间。量化版高达90%的模型瘦身,性能依然十分稳健。在速度、性能飙升的同时,又做到了模型极致压缩,让端侧算力不再有压力。

在应用上,端侧长文本的突破带来更多可能。基于8B版本,面壁智能团队微调出两个特定能力模型,分别可以用做MCP Client和纯端侧性能比肩Deep Research的研究报告神器MiniCPM4-Surve。

截至目前,MiniCPM 4.0已实现 Intel、高通、MTK、华为昇腾等主流芯片的适配,并可在vLLM、SGLang、llama.cpp、LlamaFactory、XTuner等开源框架部署。同时加强了对MCP的支持,且性能超过同尺寸开源模型,进一步拓展了模型开发、应用潜力。


整体而言,本次MiniCPM 4.0的发布,是面壁智能持续探索高效大模型道路上的又一重要里程碑,通过多维度、高密度的优化,真正做到行业唯一的端侧可落地的系统级软硬件稀疏化高效创新。截至目前,面壁小钢炮MiniCPM系列全平台下载量累计破1000万。未来,面壁智能还将基于「大模型密度定律Densing Law」,持续提高大模型的知识密度与智能水平,推动端侧智能高效发展与规模化产业应用。

本文来源:IPO早知道

来源:IPO早知道

重要提示:本文仅代表作者个人观点,并不代表乐居财经立场。 本文著作权,归乐居财经所有。未经允许,任何单位或个人不得在任何公开传播平台上使用本文内容;经允许进行转载或引用时,请注明来源。联系请发邮件至ljcj@leju.com,或点击【联系客服

网友评论