CogAgent CogAgentVisual Language Model for GUI Agents / 用于图形用户界面智能体的视觉语言模型。一、CogAgent 是什么CogAgent​ 是由清华大学 KEG 实验室 智谱AI (Zhipu AI)​ 提出的开源Vision-Language Model (VLM视觉语言模型)专门设计用来看懂 GUI 截图并操控界面是典型的GUI Agent图形用户界面智能体。输入GUI 截图 (Screenshot / GUI Image)​ 用户自然语言指令 (Natural Language Instruction)输出下一步操作 (Next Action)​ 操作坐标 (Bounding Box / Coordinates)​ 可选推理说明 与传统 LLM-based Agent 不同CogAgent不看 HTML/DOM而是像人一样直接看屏幕截图来做决策。二、核心能力 (Core Capabilities)能力英文说明视觉问答Visual Question Answering (VQA)回答截图相关问题如这个窗口标题是什么视觉定位Visual Grounding找出界面元素位置返回 bbox 坐标GUI 导航GUI Navigation / Agent预测点击、输入、滑动等操作及坐标高分辨率理解High-Resolution Image Understanding支持1120×1120​ 像素输入看清小图标/文字三、模型架构 (Architecture)CogAgent 基于CogVLM (Visual Language Model)​ 扩展而来双分辨率视觉编码器 (Dual-Resolution Vision Encoder)低分辨率分支 (Low-Resolution Branch)EVA2-CLIP-E处理 224×224 —— 捕捉全局语义高分辨率分支 (High-Resolution Branch)EVA2-CLIP-L≈0.3B 参数处理1120×1120​ —— 看清细字和小图标高分辨率交叉注意力模块 (High-Resolution Cross-Attention Module)高分辨率特征通过Cross-Attention交叉注意力​ 注入语言解码器 (Decoder) 每层隐藏维度 (Hidden Size) 仅 1024低于 Decoder 的 4096控制计算量避免了直接拉高分辨率导致 Self-Attention 的O(n²) 二次方爆炸✅ 结果1120×1120 输入的 CogAgent 前向计算量甚至低于​ 490×490 的 CogVLM。参数规模初代 CogAgent-18BVision Encoder ≈11B Language Model ≈7B新版CogAgent-9B-20241220基于GLM-4V-9B​ 微调更强泛化支持中英文 GUI四、训练数据与阶段 (Training)预训练 (Pre-training)文本识别数据 (OCR / synthetic text rendering)视觉定位数据 (Visual Grounding / REC REG)GUI 截图 DOM 对应数据CCS400K 网页数据集多任务微调 (Multi-task Fine-tuning)VQA 数据集 GUI Agent 数据集Mind2Web、AITW 等格式化为 QA 对让模型学会看截图→说操作五、典型工作流程 (Pipeline)用户指令(帮我在GitHub给CogVLM点Star) ↓ [GUI Screenshot Text Prompt] → CogAgent ↓ 输出 - Status当前状态页面显示仓库主页 - Plan计划找到右上角 Star 按钮并点击 - Action动作描述Click the Star button - Grounded Operation结构化操作CLICK (x, y) bbox ↓ 自动化工具执行点击 → 截新图 → 循环六、性能亮点 (Benchmark Results)GUI AgentMind2Web网页、AITWAndroid大幅超越仅用 LLMHTML 的 AgentVQAVQAv2、DocVQA、TextVQA 等多个榜单达 SOTA同期通用 VLM 第一七、关键术语中英对照英文中文备注Vision-Language Model (VLM)视觉语言模型图文联合理解的基座模型GUI Agent图形用户界面智能体自动操作桌面/手机/网页的 AgentVisual Grounding视觉定位根据描述找图中物体坐标(bbox)Bounding Box (bbox)边界框矩形框 (x1,y1,x2,y2) 标出目标位置Cross-Attention交叉注意力让文本 Query 去 attend 图像 Key/ValueSelf-Attention自注意力Transformer 内部同序列相互注意Fine-tuning / SFT微调 / 监督微调用任务数据调整预训练权重OCR (Optical Character Recognition)光学字符识别从图像中识别文字八、资源链接 论文[2312.08914] CogAgent: A Visual Language Model for GUI Agents GitHubGitHub - zai-org/CogAgent: An open-sourced end-to-end VLM-based GUI Agent · GitHub含 CogVLM 早期版也在该仓 HuggingFaceTHUDM/cogagent-chat-hf、THUDM/cogagent-9b-20241220 硬件INT4 量化推理约需≥24GB 显存如 RTX 3090/A5000/A100