以后所有的 AI 大模型，可能都会自带操控电脑的能力。这话听着有点夸张，但看看

以后所有的 AI 大模型，可能都会自带操控电脑的能力。这话听着有点夸张，但看看最近半年发生的事情，你会觉得这个趋势已经很明显了。 3 月 5 号，OpenAI 发布了 GPT-5.4。这次更新里有个功能特别值得注意——「原生电脑操控」。什么意思呢？就是 AI 可以直接看你的电脑屏幕截图，然后操作鼠标和键盘，帮你完成各种任务。不是在聊天框里给你建议，是真的替你点按钮、填表格、切换应用。 OpenAI 说，GPT-5.4 在一个叫 OSWorld 的测试里拿到了 75% 的成功率。这个测试是干什么的呢？就是让 AI 在一台真实的电脑桌面上完成各种操作任务——打开文件、调整设置、跨应用操作。75% 这个分数，已经超过了人类在同一个测试中的表现（72.4%）。当然，测试归测试，真干活的时候肯定会打折扣。但这个数字已经说明一个问题：AI 操控电脑这件事，技术上已经可行了。回头看看这半年，你会发现所有的大玩家都在往这个方向使劲。最早把这事做出声量的是 OpenClaw（也就是大家说的「龙虾」）。这个开源项目去年底火起来的时候，核心卖点就是让 AI 连接你的各种本地应用——聊天工具、邮件、日历、文件系统。它在 GitHub 上的 Star 数已经超过 21 万，是 2025-2026 年增长最快的开源 AI 项目。 OpenClaw 证明了一件事：用户确实需要 AI 走出聊天框，去操作真实的软件环境。然后 Anthropic 跟上了。Claude 的「Computer Use」功能在今年 3 月正式对付费用户开放。它的做法跟 GPT-5.4 类似——通过截屏来理解屏幕内容，然后模拟鼠标键盘操作。Anthropic 在安全方面比较谨慎，比如明确建议不要让它碰银行或金融类操作。 Manus 走的是另一条路。它在去年被 Meta 收购后推出了「My Computer」桌面应用。跟 Claude 和 GPT 不同的是，Manus 主要通过终端命令来执行任务，而不是模拟鼠标点击。这让它在处理批量文件、跑代码这类任务上更高效。举个例子。一个做电商的朋友告诉我，他每天要处理几百张产品图片的重命名和分类。以前手动搞，一下午搭进去了。他用 Manus 的 My Computer 设了一个自动流程：AI 扫描图片内容，识别出产品类型，自动按规则重命名然后归档到对应文件夹。原来 4 个小时的活儿，现在 10 分钟跑完。微软也没闲着。3 月中旬发布的 Copilot Cowork，定位就是「AI 同事」。它有一个很聪明的设计：不绑定某一个 AI 模型，而是根据任务类型自动选用最合适的模型。意思是，它把「选模型」这事也自动化了。 Google 的 Project Mariner 基于 Gemini，主打在浏览器里帮你完成网页操作。Grok 4.20 搞了一个四个 AI 协作的架构来处理复杂任务。你发现没有？几乎所有主流 AI 公司，都在做同一件事——让 AI 从聊天框里走出来，去操控你的电脑。这让我想起一个类似的故事。两年前，大模型开始加「联网搜索」功能的时候，大家也觉得新鲜。ChatGPT 能搜网页了？很厉害嘛。但现在你再看看，联网搜索已经变成了所有大模型的标配功能，没有哪家的 AI 还只能靠训练数据回答问题了。「操控电脑」大概率也会走一样的路。不过有个事情得提一下：安全。当你让 AI 读取屏幕内容、操作你的文件时，等于把一部分电脑控制权交出去了。目前所有的主流产品都采用了一种叫「人在回路」的机制——简单说就是 AI 每执行一个关键操作之前，都要先问你一声。你确认了它才动手。但风险还是有的。你的屏幕上可能有聊天记录、银行页面、私人照片，AI 截屏的时候能看到这些。所以用这类工具的时候，注意别让 AI 接触到你不想暴露的东西。回到那个问题：以后所有的 AI 大模型都会有操控电脑的能力吗？我觉得大概率会。就像今天你不会选一个不能联网的 AI 一样，再过一两年，你大概也不会选一个只能跟你聊天、却不能帮你干活的 AI。操控电脑这个能力，正在从「特色功能」变成「基础能力」。

云霞资讯网

以后所有的 AI 大模型，可能都会自带操控电脑的能力。这话听着有点夸张，但看看

热门分类

以后所有的 AI 大模型，可能都会自带操控电脑的能力。 这话听着有点夸张，但看看

热门分类

以后所有的 AI 大模型，可能都会自带操控电脑的能力。这话听着有点夸张，但看看