以后所有的 AI 大模型,可能都会自带操控电脑的能力。 这话听着有点夸张,但看看最近半年发生的事情,你会觉得这个趋势已经很明显了。 3 月 5 号,OpenAI 发布了 GPT-5.4。这次更新里有个功能特别值得注意——「原生电脑操控」。什么意思呢?就是 AI 可以直接看你的电脑屏幕截图,然后操作鼠标和键盘,帮你完成各种任务。不是在聊天框里给你建议,是真的替你点按钮、填表格、切换应用。 OpenAI 说,GPT-5.4 在一个叫 OSWorld 的测试里拿到了 75% 的成功率。这个测试是干什么的呢?就是让 AI 在一台真实的电脑桌面上完成各种操作任务——打开文件、调整设置、跨应用操作。75% 这个分数,已经超过了人类在同一个测试中的表现(72.4%)。 当然,测试归测试,真干活的时候肯定会打折扣。但这个数字已经说明一个问题:AI 操控电脑这件事,技术上已经可行了。 回头看看这半年,你会发现所有的大玩家都在往这个方向使劲。 最早把这事做出声量的是 OpenClaw(也就是大家说的「龙虾」)。这个开源项目去年底火起来的时候,核心卖点就是让 AI 连接你的各种本地应用——聊天工具、邮件、日历、文件系统。它在 GitHub 上的 Star 数已经超过 21 万,是 2025-2026 年增长最快的开源 AI 项目。 OpenClaw 证明了一件事:用户确实需要 AI 走出聊天框,去操作真实的软件环境。 然后 Anthropic 跟上了。Claude 的「Computer Use」功能在今年 3 月正式对付费用户开放。它的做法跟 GPT-5.4 类似——通过截屏来理解屏幕内容,然后模拟鼠标键盘操作。Anthropic 在安全方面比较谨慎,比如明确建议不要让它碰银行或金融类操作。 Manus 走的是另一条路。它在去年被 Meta 收购后推出了「My Computer」桌面应用。跟 Claude 和 GPT 不同的是,Manus 主要通过终端命令来执行任务,而不是模拟鼠标点击。这让它在处理批量文件、跑代码这类任务上更高效。 举个例子。一个做电商的朋友告诉我,他每天要处理几百张产品图片的重命名和分类。以前手动搞,一下午搭进去了。他用 Manus 的 My Computer 设了一个自动流程:AI 扫描图片内容,识别出产品类型,自动按规则重命名然后归档到对应文件夹。原来 4 个小时的活儿,现在 10 分钟跑完。 微软也没闲着。3 月中旬发布的 Copilot Cowork,定位就是「AI 同事」。它有一个很聪明的设计:不绑定某一个 AI 模型,而是根据任务类型自动选用最合适的模型。意思是,它把「选模型」这事也自动化了。 Google 的 Project Mariner 基于 Gemini,主打在浏览器里帮你完成网页操作。Grok 4.20 搞了一个四个 AI 协作的架构来处理复杂任务。 你发现没有?几乎所有主流 AI 公司,都在做同一件事——让 AI 从聊天框里走出来,去操控你的电脑。 这让我想起一个类似的故事。两年前,大模型开始加「联网搜索」功能的时候,大家也觉得新鲜。ChatGPT 能搜网页了?很厉害嘛。但现在你再看看,联网搜索已经变成了所有大模型的标配功能,没有哪家的 AI 还只能靠训练数据回答问题了。 「操控电脑」大概率也会走一样的路。 不过有个事情得提一下:安全。 当你让 AI 读取屏幕内容、操作你的文件时,等于把一部分电脑控制权交出去了。目前所有的主流产品都采用了一种叫「人在回路」的机制——简单说就是 AI 每执行一个关键操作之前,都要先问你一声。你确认了它才动手。 但风险还是有的。你的屏幕上可能有聊天记录、银行页面、私人照片,AI 截屏的时候能看到这些。所以用这类工具的时候,注意别让 AI 接触到你不想暴露的东西。 回到那个问题:以后所有的 AI 大模型都会有操控电脑的能力吗? 我觉得大概率会。就像今天你不会选一个不能联网的 AI 一样,再过一两年,你大概也不会选一个只能跟你聊天、却不能帮你干活的 AI。 操控电脑这个能力,正在从「特色功能」变成「基础能力」。