文章来源:放心AI网发布时间:2025-05-15 11:24:56
智谱AI旗下的GLM-PC基座模型CogAgent-9B现已开源,以促进大模型Agent生态的发展。CogAgent-9B是基于GLM-4V-9B训练而成的专用Agent任务模型,能够仅通过屏幕截图作为输入,根据用户指定的任意任务结合历史操作,预测下一步的GUI操作。这一模型的普适性使其可广泛应用于个人电脑、手机、车机设备等多种基于GUI交互的场景。
与2023年12月开源的第一版CogAgent模型相比,CogAgent-9B-20241220在GUI感知、推理预测准确性、动作空间完善性、任务普适性和泛化性等方面均有显著提升,并支持中英文双语的屏幕截图和语言交互。CogAgent的输入仅包含用户的自然语言指令、已执行历史动作记录和GUI截图,无需任何文本形式表征的布局信息或附加元素标签信息。输出则涵盖思考过程、下一步动作的自然语言描述、下一步动作的结构化描述以及下一步动作的敏感性判断。
在性能测试中,CogAgent-9B-20241220在多个数据集上取得了领先结果,展现了其在GUI定位、单步操作、中文step-wise榜单和多步操作等方面的优势。智谱技术的这一举措,不仅推动了大模型技术的发展,也为视障IT从业者提供了新的工具和可能性。
代码:
https://github.com/THUDM/CogAgent
模型:
Huggingface:https://huggingface.co/THUDM/cogagent-9b-20241220
魔搭社区:https://modelscope.cn/models/ZhipuAI/cogagent-9b-20241220
相关攻略 更多
最新资讯 更多
智谱AI开源Agent任务模型CogAgent-9B:通过屏幕截图预判操作
更新时间:2025-05-15
广汽发布第三代人形机器人GoMate,2026年将量产
更新时间:2025-05-15
DeepSeek-V3:超大开源AI模型发布,性能超越Llama和Qwen
更新时间:2025-05-15
挑战开源AI新高度:DeepSeekV3超越Llama3.1,训练数据达14.8万亿token
更新时间:2025-05-15
拉胯?OpenAI的ChatGPT和Sora本月第二次宕机
更新时间:2025-05-15
报告:微软和OpenAI根据财务利润定义AGI
更新时间:2025-05-15
AI存在的又一个意义,助力老年人安全独立生活
更新时间:2025-05-15
香港AI初创瞄准企业活动市场!个性化头像生成服务营收可观
更新时间:2025-05-15
Reddit增强AI能力获花旗银行目标股价上调至200美元
更新时间:2025-05-15
MIT开发AI工具!逼真卫星图像预测洪水,为决策者提供可视化支持
更新时间:2025-05-15