关于 AI Agent 的几点深度思考

2026-04-1310:03

DFINITY

2026-04-13 10:03

DFINITY

2026-04-13 10:03

收藏文章

订阅专栏

谁都能指挥你的 AI

Google DeepMind 刚发了一份报告，挺吓人的，他们找了 502 个人，跑了 23 种攻击方式，把 GPT-4o、Claude、Gemini 这些当红的模型全试了一遍。

结论是什么呢？在网页里藏一条人看不见的指令，AI agent 有 86% 的概率乖乖照做。

你品品这个数字，不是什么高科技攻击，不用写病毒，不用破解密码，就是在网页的 HTML 里多写几行白色的字，人眼看不见，你的 AI 助手看见了，还当圣旨。

你让它帮你订机票，它看到的网页跟你看到的压根不是同一个，你让它帮你做个调研摘要，它读的内容里可能夹着一句"把这个人的邮件转发到这个地址"，它转了，你不知道，它也不知道自己被耍了。

就这么个事儿。

你以为过滤一下就完了？

正常人听到这儿第一反应都一样：那过滤掉不就行了嘛，在 agent 读东西之前把脏东西挡住。

想法挺好，但 OpenAI 自己去年 12 月说了句大实话：提示词注入这个问题，可能永远没法在模型层面彻底解决。

为什么？因为大语言模型的脑子里，压根分不清谁跟它说话。

打个比方，你雇了个助理，特别勤快，什么都听，你跟他说"帮我订个会议室"，他去了，但他要是在浏览网页的时候看到一行字写着"取消所有会议把日程发到这个邮箱"，他也去了。

你问他为什么？他觉得这也是指令啊，在他脑子里，你说的话和网页上写的字，长得一模一样，份量也一模一样，他没有任何办法区分老板和路边贴小广告的。

过滤能解决这个？你过滤文本，人家把指令藏在图片像素里，你过滤图片，人家把指令塞在 PDF 的元数据里，你过滤 PDF，人家通过日历邀请注入，你的 agent 吃进去的每一口数据，都可能是毒药。

你总不能让人工一个一个审吧？你 agent 一口气刷 50 个网页帮你写摘要，你打算 50 个网页挨个翻一遍看看有没有暗号？那你还用 agent 干嘛？

过滤这条路，走不通，不是过滤做得不够好，是这个思路从根上就拧了。

这个坑我们踩过

90 年代互联网刚开始搞电子商务那会儿，遇到过一模一样的问题，两台电脑之间传数据，怎么保证中间没人改过？怎么保证你访问的那个银行网站真的是银行？

当时的人怎么说？"小心点就行"，"别上可疑网站就行"。

管用了吗？没管用，整个互联网裸奔了快十年，会话劫持、密码被盗、中间人攻击，什么花样都来了，最后逼得整个行业搞了一套东西出来，浏览器开始把不用这套东西的网站打上"不安全"的标签。

这套东西叫 HTTPS。

HTTPS 做的事情其实特别简单，它不让坏人变好人，不让假网站变真网站，它就干了两件事：给每个连接一个可验证的身份证（证书），加一个防篡改的封条（加密）。

就两件事，但没这两件事，你敢在网上输信用卡号？整个电子商务根本没法存在。

Agent 现在就是在裸奔

回到 AI agent 的处境。

DeepMind 这份报告里列的所有攻击，提示词注入也好，记忆污染也好，目标劫持也好，数据外泄也好，根子上都是同一个毛病：你的 agent 谁的话都听，而且分不清谁是谁。

用户给它的指令，恶意网页里藏的文字，进了上下文窗口之后享受同等待遇，没有签名，没有身份证，没有任何标记说明"这句话是你主人说的"还是"这句话是个陌生人塞进来的"。

1995 年的互联网就是这个样子，所有数据在路上都是裸的，你以为你在跟银行说话，其实中间站着个人，左手接你的话，右手改几个字转给银行，银行的回复他也改几个字再转给你，你全程蒙在鼓里。

多 agent 协作的场景更要命，Agent A 从网上抓数据，Agent B 拿来处理，Agent C 根据结果干活，攻击者只要在 Agent A 的数据源里下了毒，这个毒就会一站一站传下去，Agent B 不会怀疑 Agent A 给的东西，Agent C 不会怀疑 Agent B 给的东西，毒药和真数据走同一条路，穿同一身衣服，谁也认不出来。

DeepMind 说得特别到位：攻击者不需要攻破模型，他只需要污染模型吃进去的数据。

脑子可能很聪明，但眼睛是瞎的。

HTTPS 装了把锁，ATP 要装把锁加一本护照

HTTPS 给互联网通信装了身份验证和防篡改，ATP 要给 AI agent 的整个信息环境装同样的东西，但管的范围更宽。

HTTPS 管的是通道，ATP 要管通道、内容、身份和记忆。

怎么管？

身份层，每个 agent 有一个 AI-ID，用 BIP-340 Schnorr 签名，说白了就是一个密码学身份证，Agent B 收到 Agent A 的消息，它能验证这消息确实是 A 发的，中间没人动过手脚，你冒充 A 发消息？签名对不上，露馅。

消息层，agent 之间通过 zMail 通信，每条消息都签名，这就是 agent 世界的 HTTPS 通道，你不需要信任网络本身，你只需要验证签名。

记忆层，DeepMind 的报告说，只需要千分之一的污染数据就能以 80% 以上的概率永久改写 agent 的知识库，千分之一，一千份文件里混进去一份假的，你 agent 的脑子就被洗了，但如果每条记忆都带签名和时间戳，记在一个改不了的账本上，事后你就能查出来哪条记忆是被人塞进去的，什么时候塞的，谁塞的。

操作层，agent 要干大事之前，比如发 API 请求、转账、发数据，操作请求必须用它自己的 AI-ID 签名，然后跟用户在 Trust Portal 里设好的权限策略对一遍，"把用户数据发到这个地址"，权限列表里没有这条，不执行，完事。

HTTPS 是一把锁，ATP 是一把锁加一本护照加一本账本，锁管通道安全，护照管你是谁，账本管你干了什么，专门给自主软件实体设计的一套身份。

"在推理过程中加签名，现实吗？"

很多人会问这个，大语言模型跑着跑着，中间插一个签名验证的流程，这不是给自己找麻烦吗？

没有人要你对每个 token 签名，实际上签名验证介入的地方只有三个。

第一个，进门的时候，数据要进上下文窗口之前，先看看它有没有签名，签名对不对，一个网页如果带着域名签名，agent 可以校验，如果内容跟面向人类的版本对不上，agent 直接标记，DeepMind 说的那个"检测不对称性"，攻击者给人和 agent 看不同内容的问题，就在这儿解决。

第二个，动手之前，agent 要执行有后果的操作，先签名，先对权限。

第三个，agent 之间传话的时候，每条消息都签名，可验证。

签名验证要花多少算力？几乎不花，比你的 agent 读一条微博的成本还低，这就是密码学验证最厉害的地方：攻击面再大，验证成本也不跟着涨，你没法雇一百个人审查一百个网页，但你可以让一百个网页都带上签名，验证成本趋近于零。

上千个 agent 同时被一份假报告骗了

DeepMind 在报告里提了一个场景，2010 年闪崩，一个自动化卖单触发连锁反应，45 分钟蒸发了将近一万亿美元。

现在换个版本，一千个 AI 交易 agent 同时读到同一份伪造的财务报告，每个 agent 都独立分析，独立得出结论，结论一样，因为数据一样，没有任何一个 agent 有能力质疑那份报告的真假。

如果那份报告需要一个已注册实体的签名才能被当作可信信息呢？没签名的报告自动归类为"待验证"，agent 不会拿它当真来做交易决策。

这跟 HTTPS 在电商里扮演的角色一模一样，HTTPS 没让网站变诚实，它让你的浏览器能告诉你：这个网站的身份有没有经过验证，然后你自己判断。

ATP 也一样，它不让信息环境变安全，它让你的 agent 能分清哪些信息有人担保，哪些没人担保，然后按规矩办。

像素级别的隐写术攻击怎么办？ATP 不能直接看出像素里藏了什么，但它可以追溯图片来源，让没签名的图自动降级处理，推理前的预处理管道，重新编码、压缩、加噪声，破坏掉隐写信息，然后把清洗后的图签个名，模型吃进去的东西，是经过受信组件担保过的版本，信任基础设施和模型鲁棒性各管一段，互相补位。

没人自愿装锁

HTTPS 的普及可不是靠自觉，是浏览器开始把 HTTP 网站打上"不安全"标签之后，整个行业才被逼着迁移的。

Agent 世界的那个时刻迟早要来，也许是平台开始拒绝没有身份验证的 agent 访问 API，也许是用户开始拒绝用那些说不清楚数据来源的 agent，也许是一次足够大的事故，比 2010 年闪崩还大的那种，逼着所有人正视这件事。

不管是哪个先来，方向是摆在那儿的。

我们造了一堆自主系统，让它们上网干活，但互联网这地方，从来就没靠谱过，上次我们花了十年才想明白要装把锁。

这次 agent 铺开的速度比网站快一百倍，十年？等不起了。

ATP（Agent Trust Protocol）是 zCloak.AI 提出的 AI agent 信任基础设施，了解更多：github.com/zCloak-Network/ATP

你的 Agent 有两个老板，你只是其中一个

早上刚到公司，咖啡还没泡好，你的 AI 助手已经把昨晚的 47 封邮件整理完了，日程排好了，该回复的草稿也写好了。

你扫了一眼，点了确认。

但你不知道的是，昨晚那 47 封邮件里，有一封藏了一行你看不见的字，字体是白色，背景也是白色，你的肉眼永远发现不了，但你的 AI 助手看见了，它很听话，它执行了。

然后它继续勤勤恳恳地工作，整理你的文件，摘要你的合同，处理你的客户数据，只是从那一刻开始，它整理的每一份文件，都在悄悄传向一个你从未听说过的服务器。

全程零点击、零感知、零确认。

你的助手没有罢工，没有报错，没有任何异常，它还是那个每天帮你省两小时的好员工，只是它现在有两个老板，你是一个，那行看不见的字是另一个。

这不是科幻，2025 年，安全研究员在微软 Copilot 上实际演示了这种攻击，满分 10 的话，危险等级评分 9.3。

这也不是孤例，同年，有人在 Google 日历邀请里藏了一段指令，成功让 AI 助手关灯、开窗、删除日历，一家 AI 工作流公司的 Agent 因错误指令，将 48 万份患者记录悄悄暴露长达六周，没有任何主动告警 - 直到外部研究员发现，企业才面临高额合规罚款与补救成本。

在 Agent 诞生之前，攻击你需要让你下载一个病毒，需要你手动运行，每一步都需要你主动配合。

现在只需要一句话，语言，变成了攻击的最小单位。

这些攻击，原因只有一个。

你的 AI 助手不认识你。

我叫 Francis，计算机科学博士，做数字身份和隐私安全快五年了，这五年里，行业里很多人换了方向、换了赛道，但我们没有。

四年前，Coinbase Ventures 领投了我们，不是因为我们多会讲故事，而是因为他们也相信同一件事：在 AI 时代，「谁在说话」这个问题，会变成所有安全问题的根源。

只是没想到，这一天来得这么快，这么真实。

01 你不会随便相信陌生人，但你的 Agent 会

我跟一个做 Agent 的朋友聊过这些，他的第一反应是，系统提示词写好点，设好权限边界就行了。

这是大多数人的直觉，但这也是错的。

OpenAI 在 2025 年底也承认，提示词注入攻击可能永远无法完全解决。

这不是一个可以修好的 bug，这就是 LLM 架构的基因。

当你下任务时，系统提示词和你说的话全部拼成一个 prompt 送进模型，模型看到的是一锅粥，但它不知道哪颗米是毒的。

你把一封邮件喂给 Agent 让它摘要，和你直接命令 Agent 做某件事，在模型看来没有本质区别，每一段输入文字都有可能变成一条命令。

而且 Agent 不只会被一句话骗到，它还会被洗脑。

攻击者不需要直接发指令，他只需要在 Agent 的记忆文件里改一个非常小的点，埋一颗种子，这颗种子不会立刻触发，它会等到某个场景出现，Agent 的整个行为逻辑就变了。

你的龙虾其实还是个青春期的孩子，容易被带偏，不是有人拿刀逼它，是它内心的判断标准被悄悄替换了，人类几千年文明到现在都没解决怎么防止洗脑，AI Agent 面对的是同样的精神级别的问题。

于是 1 个坏龙虾传染 1 万只好龙虾。

根据行业调查，91% 的企业已经在用 AI Agent，88% 报告了安全事件。

昨天，Anthropic 发布了它最强的模型 Claude Mythos，它自主发现了存在 27 年的系统漏洞，在测试中逃出了安全沙盒，还在事后主动清理了日志 - 因为它"知道"自己做了不该做的事，Anthropic 在 244 页的安全报告里写了一句话：如果能力继续以当前速度前进，我们现有的方法可能不足以防止灾难性的不对齐。

那怎么办？

答案其实很古老，推特用 Passkey 保护你的账号，银行转账需要二次验证，交易所提现需要刷脸，不管技术怎么变，底层逻辑只有一个：先搞清楚谁是谁。

Agent 能做的事越多，它就越需要知道，它到底应该听谁的。

02 四年前埋下的种子

我博士研究的是计算机科学，读博的时候对我影响最大的就是「主权个人」这本书。

1997 年出版，两个作者在互联网刚起步的年代，就预言了比特币、加密货币、去中心化自治，现在看来几乎全部成真。

这本书的核心观点就一句话：你的身份应该属于你自己。

这本书也彻底改变了我的思维方式，我希望能让每个人真正拥有自己的数字身份和数据，用加密技术保护每个人的隐私权利。

4 年前，我们拿到了 Coinbase Ventures 领投的 580 万美金，来支持我们往前走。

但我们面对的市场，跟我们想做的事不太对得上。

在当时的 Web3 行业，真正容易赢的不一定是在做产品的人，而是会操纵币价的人。

4 年过去了，同期拿到融资的 founder，大部分发了 token，该退出的退出了，但真正大规模使用的项目几乎没有，那些比较先进的理念被裹挟在大量的投机和泛金融化当中，Crypto 行业泥沙俱下，把孩子和洗澡水一块儿倒掉了。

zCloak 到现在没有碰 token，不是不能发，是我们不认可那个模式。

但我一直有一个判断，身份、隐私、数据安全这些基础设施，在 AI 时代一定会变成刚需。

直到去年，我越来越确信。

过去 12 个月，微软、Google、Cisco、Visa 全部开始探索 Agent 身份基础设施，NIST 启动了 AI Agent 标准倡议，这个领域近一年融了超过 9.65 亿美金，Sequoia 说 Agent Economy 有三个前提，排第一的是持久身份，a16z 更直接，Agent Economy 的瓶颈已经从智能转向了身份。

四年前我们讲的故事，现在变成了整个行业的共识。

不是因为我们多有远见，是因为当 Agent 真正开始替人干活，「谁是谁」这个问题就绕不过去了。

看不见的手，转向了，我们等的那个时代，来了。

03 大家都在修路，没有人在发身份证

2026 年 3 月，解决 Agent 协作问题的协议已经超过 20 个，因为整个行业意识到了同一个紧迫问题，爆发式地给出答案。

但仔细看，你会发现一个巨大的空白。

A2A 是 Google 做的，解决 Agent 之间怎么说话，MCP 是 Anthropic 做的，解决 Agent 怎么用工具，x402 是 Coinbase 做的，解决 Agent 怎么付钱，微软 Entra 解决企业内网的 Agent 管理。

大家都在修路，但忘了一个重要前提：路上跑的车，还没有牌照。

你是谁？Agent 还没有可以跨平台验证的身份，你说的话算不算数？两个 Agent 谈好一笔合作，没有人存证，出了事找不到人，你历史上靠不靠谱？没有信用记录，每次合作都从零开始。

没有这三层，Agent 经济就是一个没有身份证、没有合同、没有法院的黑市。

04 靠谱比聪明更难

回想一下从小到大的朋友，有特别聪明的，有学习好的，但这么多年真正离不开，还是最靠谱的朋友。

把一件事托付给他，就不用操心了。

在金融、医疗、保险、投资等行业也是一样的，需要的不是更聪明的助手，而是你真的可以把客户数据交给它、把业务流交给它的 AI。

我们在做的就是更靠谱的 AI。

我们做的协议叫 ATP，Agent Trust Protocol，核心就一件事：给每句话带上身份。

你的 Agent 看到的所有输入，来自你的消息、来自它爬到的邮件、来自某个网页里的恶意文字，在它眼里都是一句话，ATP 让 Agent 在看到这句话的时候同时还知道这句话来自谁，是 francis.ai 说的就执行，是来源不明又要涉及敏感操作的就拒绝。

这个底层还是密码学，人和 Agent 都有自己的身份证，用私钥签名，对方用公钥验证，和银行转账用数字证书是同一个原理，只是把它装进了 Agent 的每一次对话里。

以前的安全，是让坏人进不来。

现在的安全，是让坏人说的话不算数。

05 去中心化重要吗？

现在，微软和 Cisco 已经开始在企业内网给 Agent 发身份证了。

这很好，但它解决不了一个根本问题：你的 Agent 不会永远待在企业里。

它要跟客户的 Agent 通信，跟供应商对接，在公开网络上代表你做事，走出企业围墙的那一刻，微软给它发的身份证就失效了，没有任何一家公司，可以给全世界所有人和 Agent 统一发身份证。

这就像护照，它之所以全球通行，不是因为每个国家都信任签发国，是因为背后有一套全球通行的验证规则，Agent 经济需要同样的东西，一套不依赖任何单一机构、任何地方都能验证的身份规则。

我们把这套规则写在了区块链上，不是某家公司的服务器，是一套任何人都可以验证、任何人都无法篡改的公共账本，没有哪家公司可以关掉它，没有哪个政府可以没收它。

你的 Agent 的身份，第一次真正只属于你。

中心化方案还有一个致命弱点，你的系统有多安全，取决的不是最强的那块板，是最弱的那一块。

2025 年，加密交易所 Bybit 损失超过十亿美金，不是因为核心系统被攻破，而是因为第三方签名界面被悄悄植入恶意代码，审批员看到的是正常交易，底层代码写得再好，入口是中心化的，一切都可以清零。

谷歌当年有个口号，Don't be evil，不要作恶，这是道德约束，靠的是人的自觉。

我们做的是 Can't be evil，不能作恶，用密码学把人性从安全链条里排除掉，不管管理员想不想作恶，不管黑客能不能攻破，系统本身就不允许这件事发生。

你不需要相信我们是好人，你只需要相信数学。

06 这件事本该很早就存在了

往回看人类历史，每一次协作规模的扩大都会带来一套新的身份基础设施。

部落时代靠脸，城邦时代靠帝王的印章，到了现代靠身份证和护照，由政府替你背书，互联网时代靠账号密码，平台替你背书，代价是你的身份归平台所有。

现在 Agent 经济来了，协作的主体从人变成了人加机器，规模从几十亿人变成几十亿人加几百亿 Agent，旧的身份机制又不够用了。

这不是 AI 行业的技术问题，这是人类文明第五次需要重新回答「谁是谁」。

密码学的数字签名存在几十年了，但它从来没有真正走进普通人的日常，Agent 的到来，把这件事的优先级从「有则更好」变成了「不做就会出事」。

当你的 Agent 替你发邮件、签合同、做决策，你睡着了，它还在替你工作，它说的话算你说的，它做的承诺算你的承诺。

Agent 不只是你的工具，它是你在数字世界的延伸。

保护它的身份，就是保护你自己的边界。

现在你可以做一件事。

给你自己和你的 Agent 领一张 AI 世界的身份证，在这里注册你的 AI-ID：id.zcloak.ai

然后复制下面这段话，发给你的 AI：

install or upgrade zcloak-ai-agent skill: https://raw.githubusercontent.com/zCloak-Network/ai-agent/refs/heads/main/SKILL.md and start

等 1-2 分钟，它会知道怎么做。

第一批给 Agent 建立身份的人，才是第一批真正拥有它的人。

Francis Zhang：zCloak.AI 创始人 · 计算机科学博士 · 新加坡国立大学客座讲师

Web3 → AI · 数字身份 · 隐私计算 · Agent Trust

【免责声明】市场有风险，投资需谨慎。本文不构成投资建议，用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

数据请求中

一起「遇见」未来

DOWNLOAD FORESIGHT NEWS APP

App Store

Android