智谱GLM-4.1V-Thinking登顶HuggingFace Trending全球第一

<{$news["createtime"]|date_format:"%Y-%m-%d %H:%M"}>  IPO早知道 9025阅读 2025-07-09 20:00


GLM-4.1V-9B-Thinking标志着GLM系列视觉模型实现从感知走向认知的关键跃迁。

据IPO早知道消息,GLM-4.1V-9B-Thinking凭借9B的模型尺寸,日前成功登顶HuggingFace Trending第一。


作为一款支持图像、视频、文档等多模态输入的通用推理型大模型,GLM-4.1V-Thinking专为复杂认知任务设计。它在 GLM-4V 架构基础上引入“思维链推理机制(Chain-of-Thought Reasoning)”,采用“课程采样强化学习策略(RLCS, Reinforcement Learning with Curriculum Sampling)”,系统性提升模型跨模态因果推理能力与稳定性。

其轻量版 GLM-4.1V-9B-Thinking 模型参数控制在10B级别,在兼顾部署效率的同时实现性能突破。该模型在MMStar、MMMU-Pro、ChartQAPro、OSWorld 等28项权威评测中,有23项达成10B级模型的最佳成绩,其中18项更是持平或超越参数量高达72B的Qwen-2.5-VL,充分展现了小体积模型的极限性能潜力。

通过有效的混合训练,GLM-4.1V-9B-Thinking融合了丰富的多模态模型能力,包括但不限于:

视频理解:能够解析最长两小时的视频内容,通过推理对视频中的时间、人物、事件和逻辑关系进行准确分析;

图像问答:对图像中的内容进行深入分析和解答,具备较强的逻辑能力和世界知识;

学科解题:支持对数学、物理、生物、化学等学科问题的看图解题,通过推理给出详细的思考过程;

文字识别:对图片和视频中的文字和图表内容进行准确抽取和结构化输出;

文档解读:对金融、政务、教育等领域的文档内容进行准确的原生理解、抽取、提炼和问答;

Grounding:识别图片中的特定区域并抽取坐标位置,支持各种需要定位信息的下游任务;

GUI Agent:识别网页、电脑屏幕、手机屏幕等交互界面元素,支持点击、滑动等指令执行能力;

代码生成:能够基于输入的图片文字内容自动编写前端代码,看图写网页。

某种程度上而言,GLM-4.1V-9B-Thinking标志着GLM系列视觉模型实现从感知走向认知的关键跃迁。

本文为IPO早知道原创

作者|Stone Jin

本文来源:IPO早知道

来源:IPO早知道

重要提示:本文仅代表作者个人观点,并不代表乐居财经立场。 本文著作权,归乐居财经所有。未经允许,任何单位或个人不得在任何公开传播平台上使用本文内容;经允许进行转载或引用时,请注明来源。联系请发邮件至ljcj@leju.com,或点击【联系客服

网友评论