10B级模型SOTA，超8倍参数「大」模型，智谱开源

互联网 0 7

本条新闻为单纯事实消息的时事新闻，转载自学术头条，版权归源站所有，如有侵权，烦请联系我们。

多模态大模型正在从“看得见”走向“看得懂、想得通”。

智谱正式发布 GLM-4.1V-Thinking 系列模型，并率先开源GLM-4.1V-9B-Thinking，标志着智谱 GLM 视觉大模型向高阶认知迈出了关键一步。

该模型引入课程采样强化学习（RLCS, Reinforcement Learning with Curriculum Sampling）策略，在多个复杂推理任务中实现能力突破，整体性能达到 10B 级别视觉语言模型的领先水平。在 18 项权威评测中，GLM-4.1V-9B-Thinking 的表现已可比肩甚至超越参数量高达 72B 的 Qwen2.5-VL-72B，充分展示出结构设计与训练策略的先进性与效率。

论文链接：

https://arxiv.org/abs/2507.01006

开源列表：

Github：https://github.com/THUDM/GLM-4.1V-Thinking
ModelScope：https://modelscope.cn/organization/ZhipuAI

Hugging Face：https://huggingface.co/THUDM

HuggingFace 体验链接：https://huggingface.co/spaces/THUDM/GLM-4.1V-9B-Thinking-Demo

魔搭社区体验链接： https://modelscope.cn/studios/ZhipuAI/GLM-4.1V-9B-Thinking-Demo

API：

API 接口文档：https://www.bigmodel.cn/dev/api/visual-reasoning-model/glm-4.1v-thinking

模型效果

GLM-4.1V-9B-Thinking 通过引入「思维链」（Chain-of-Thought）推理机制，在回答准确性、内容丰富度与可解释性方面，全面超越传统的非推理式视觉模型，在28项评测任务中有23项达到10B级别模型最佳，18项任务持平甚至超过8倍参数量的Qwen-2.5-VL-72B。

模型能力

GLM-4.1V-9B-Thinking 通过有效的混合训练融合了丰富的多模态模型能力，包括但不限于:

视频理解：能够解析最长两小时的视频内容，通过推理对视频中的时间、人物、事件和逻辑关系进行准确分析；
图像问答：对图像中的内容进行深入分析和解答，具备较强的逻辑能力和世界知识；
学科解题：支持对数学、物理、生物、化学等学科问题的看图解题，通过推理给出详细的思考过程；
文字识别：对图片和视频中的文字和图表内容进行准确抽取和结构化输出；
文档解读：对金融、政务、教育等领域的文档内容进行准确的原生理解、抽取、提炼和问答；
Grounding：识别图片中的特定区域并抽取坐标位置，支持各种需要定位信息的下游任务；
GUI Agent：识别网页、电脑屏幕、手机屏幕等交互界面元素，支持点击、滑动等指令执行能力；
代码生成：能够基于输入的图片文字内容自动编写前端代码，看图写网页。

典型示例

1. 理解图表并解答问题

Prompt：请找出这张图中年度利润最高的公司，以及该公司的最大部门？

输出：Sony has the highest annual profit at $6.3B. For Sony, the note states, “Media is Sony’s second - largest segment after game consoles.” Thus, the largest segment is game consoles.

2. 解答2025高考数学真题

Prompt：请帮我解决这个题目，给出详细过程和答案

输出：[解题过程略]

已知 PA ⊥ 平面 ABCD ，故 PA ⊥ AD 且 PA ⊥ AB。
又 AB ⊥ AD ，AB ⊥ AD ，且 PA 与 AB 的公共点为 A ，因此 AD ⊥平面 PAB。
由于 AD ⊂ 平面 PAD，故平面 PAB ⊥ 平面 PAD。

3. 准确认知图形用户界面并创建日程

Prompt：在APP中，帮我创建一个两周后3点与史密斯博士的会议

输出：Action: {"action_type": "click", "box_2d": [[27,840,122,885]]}

4. 生成与输入图片相似的前端网页代码

Prompt：请构建一个与输入图片相似的网页并将其转换为 React 代码。

输出：生成的React代码：

html>


    

     

     
订单管理系统 title>
    

 script>     

 script>     

 script>     

 script>     

 link>

渲染后的网页界面截图：

5. 实验现象原理解析

Prompt：这个现象发生的原因是什么？为什么中间水杯会有水？

输出：这个现象是由于**毛细现象（或毛细作用）**导致的。具体来说：

纸巾是多孔材料，其纤维之间的缝隙类似于“毛细管”。当左右两个装有不同颜色液体的杯子与中间的空杯之间用纸巾连接时，纸巾会利用自身吸水性和纤维间的毛细作用，将左侧红色液体和右侧蓝色液体通过纤维间隙输送至中间的空杯中。随着这种输送过程的进行，中间的空杯逐渐被液体填满，从而出现了“中间水杯有水”的现象。

模型原理1. 模型架构

GLM-4.1V-Thinking 模型架构由三个核心模块组成：视觉编码器（ViT Encoder）、多层感知机适配器（MLP Projector）以及语言解码器（Language Decoder）。

我们选用 AIMv2-Huge 作为视觉编码器，GLM 作为语言解码器。在视觉编码器部分，我们将原始的二维卷积替换为三维卷积，从而实现对视频输入在时间维度上的下采样，有效提升了处理效率。对于静态图像输入，则通过复制帧的方式以保持输入格式的一致性。

为进一步增强模型对任意图像分辨率和宽高比的适应能力，我们引入了两项关键改进。

其一，融合二维旋转位置编码（2D-RoPE），使模型能够稳定处理极端宽高比（如超过200:1）和超高分辨率（如4K以上）的图像；

其二，为保留ViT预训练模型的原有能力，我们保留了其可学习的绝对位置嵌入，并通过双三次插值方式在训练过程中动态适配不同分辨率输入。

在语言解码器中，我们对原始的旋转位置编码（RoPE）进行了三维扩展（3D-RoPE）。这一设计显著增强了模型在多模态输入处理中的空间理解能力，同时保持了其在文本生成方面的原始性能。

2训练流程

GLM-4.1V-Thinking 的训练过程分为三个阶段：预训练（Pretraining）、监督微调（SFT）和强化学习（RL）。

（1）预训练阶段

预训练分为两个连续子阶段：多模态预训练与长上下文持续训练。

多模态预训练

初始阶段旨在构建模型的通用多模态理解能力。我们使用两路张量并行策略，对所有参数进行了 120,000 步训练，序列长度为 8,192，全局批量大小为 1,536。训练数据涵盖图像字幕、交错图文、OCR、Grounding、指令响应等多种模态。为提高训练效率，我们采用样本拼接的数据打包策略，将可变长度样本压缩成接近最大长度的序列，充分利用显存资源。

长上下文持续训练

为增强模型对高分辨率图像、视频序列及超长文本的处理能力，我们引入了更复杂的训练数据，包括视频帧序列和长度超过 8K tokens 的图文混合内容。该阶段将序列长度扩展至 32,768，采用混合并行策略（2路张量并行 + 4路上下文并行），并继续训练 10,000 步，保持全局批量大小为 1,536。

（2）监督微调（SFT）

在微调阶段，我们特别构建了一个高质量的 CoT（思维链）训练集，用于强化模型的长篇因果推理能力。训练样本统一采用以下格式：


  {推理过程}  think> 

  {最终答案}  answer>

微调使用全参数训练，序列长度为 32,768，批量大小为 32。训练语料来自多个任务场景，包括数学题解、多轮对话、代理规划与复杂指令跟随，涵盖图文、多模态及纯文本等不同类型。这一阶段不仅提高了多模态推理能力，也保持了模型在语言理解与逻辑推演方面的稳定表现。

（3）课程采样强化学习（RLCS）

在 SFT 基础上，我们引入强化学习全面优化模型性能。

我们结合两种方法：基于可验证奖励的强化学习（RLVR）和基于人类反馈的强化学习（RLHF），覆盖多个关键任务维度：

STEM领域问题求解（数学、物理、化学）
多模态信息定位与理解（OCR、实体定位、视频分析）
智能体任务（GUI交互、代理规划）
文档与图表理解、逻辑推理、复杂指令执行等

通过课程采样，在这些任务上开展由易而难的动态大规模强化学习训练，模型在实用性、准确性和稳健性等方面取得了显著提升。

更多信息请参考技术报告与开源代码。

点赞 0 收藏(0)

0个评论

消灭零评论