Cradle,一个通用计算机控制的多模态AI框架,它可以使AI Agent能够像人类一样,能够直接控制键盘和鼠标,实现与任意开源代码或闭源代码软件的交互。
大家好~这里是小编!本期【放心AI网-核心AI】带你解锁超实用AI神器,精选全网热门工具,助你一键开启智能新体验!
Cradle是一个通用计算机控制(General Computer Control, GCC)的多模态ai框架,由昆仑万维、北京智源人工智能研究院等机构联合推出。它通过屏幕截图作为输入,键盘和鼠标操作作为输出,使AI代理能够像人类一样直接控制计算机完成各种任务。Cradle具备信息收集、自我反思、任务推断、技能策划、动作规划和记忆管理等核心功能,能够广泛应用于游戏、日常软件操作和专业软件操作等场景。
信息收集:从屏幕图像和音频中提取多模态信息,用于决策。
自我反思:评估先前行动的成功与否,分析失败原因,以指导后续行动。
任务推断:根据当前环境和历史信息,推断并选择最佳的下一个任务。
技能策划:生成和更新与给定任务相关的技能,以适应不同的计算机操作需求。
动作规划:为键盘和鼠标控制生成具体操作,将策略转化为可执行的命令。
记忆与知识管理:拥有长期和短期记忆系统,存储过去的经验和技能,在需要时进行检索和应用。
游戏环境:如《荒野大镖客2》《星露谷物语》《城市天际线》等。
日常软件操作:如浏览器、邮件客户端、办公软件等。
专业软件操作:如图形设计或视频编辑软件。
多模态输入处理:接收并处理屏幕图像和音频的多模态输入,模拟人类感知方式理解计算机界面和环境。
信息提取与理解:利用大型多模态模型(如GPT-4V)识别图像中的视觉元素、文本信息和音频中的指令或反馈。
自我反思机制:通过反思模块评估之前执行动作是否成功,并分析失败原因。
任务推断与规划:确定当前的优先任务,并制定出新动作完成任务。
技能生成与更新:根据当前任务生成新的技能或更新现有技能。
通用性:不依赖任何内部API,能够与任意开闭源软件交互。
强大的推理能力:基于大型语言模型,能够进行复杂任务规划和执行。
自我改进:通过自我反思机制不断优化性能。
技能积累:可以逐步积累和复用各种操作技能。
Cradle已成功应用于《荒野大镖客2》、《星露谷物语》、《城市:天际线》等游戏,以及Chrome浏览器、Outlook邮箱等软件。
今天的AI工具安利就到这里啦!小伙伴们还想看哪些神器?快留言告诉小编,放心AI网-核心AI下期继续带你挖宝!
需要网络免费
资讯AI更多
教程推荐
资讯AI 更多
亚马逊推出全新智能助手Alexa+,语音指令执行餐馆预订等任务
更新时间:2025-04-19
快手可灵AI全面接入DeepSeek-R1,DeepSeek灵感版已上线
更新时间:2025-04-12
OpenAI与CoreWeave达成合作,签订119亿美元合同
更新时间:2025-04-15
NvidiaRTX5070FoundersEdition发布推迟
更新时间:2025-04-17
从编码到创意写作xAIGrok-3击败GPT4.5全能登顶大模型竞技场
更新时间:2025-04-18
德国电信携手Perplexity推出AI手机,挑战苹果谷歌生态
更新时间:2025-04-18
AMD发布全新RadeonRX9070系列显卡,性能大幅提升直逼RTX50
更新时间:2025-04-18
Netflix新招机器学习科学家与工程师,推动内容智能化
更新时间:2025-04-18
Perplexity推出5000万美元种子与前种子投资基金
更新时间:2025-04-20
Anthropic推出混合推理模型Claude3.7Sonnet:能力超DeepSeek
更新时间:2025-04-21