OpenAI 山姆的道歉信引发了对 Web3 数据主权的思考

2026-04-2709:40

富贵

2026-04-27 09:40

富贵

2026-04-27 09:40

收藏文章

订阅专栏

世上最奇怪的关系，不是人与人的关系，是人与机器的关系。人把秘密说给机器听，机器记住了，人忘了，机器还在那站着——像一口你往里吐了真话的井，你以为声音散了，其实井壁全记着。

2026 年 4 月 23 日，山姆·奥尔特曼在加拿大不列颠哥伦比亚省坦布勒里奇镇的一张纸上签下了自己的名字。这封信后来被省长 David Eby 贴到了社交媒体上，全球转发。信很短，两页纸，说了一件事：OpenAI 在八个月前就知道一个 18 岁的用户在谈枪和暴力，公司把账号封了，没告诉警察，后来这个人杀死了八个人，其中六个是孩子。

签完字，山姆说，我很抱歉。

时间概要

先把时间线摘清楚，免得后面说起来像在编故事。

2025 年 6 月，杰西·范鲁特塞拉尔（Jesse Van Rootselaar）在 ChatGPT 上谈论枪支暴力。OpenAI 的 automated abuse detection 系统响了，账户被标记，十几个人工审核员看了对话，有人说应该报警。高层开完会，决定不符合上报阈值，账户封禁，案子关闭。

2026 年 2 月 10 日，杰西在家里杀死了母亲和 11 岁的弟弟，然后走进坦布勒岭中学，开枪。八个人死了，六个是孩子，二十七个人伤了。杰西自杀。

案发后警察查到 ChatGPT 记录，OpenAI 才对外承认：我们八个月前就知道了，封了号，没告诉警察。媒体追问，又补了一刀：杰西第一个账号被封之后，注册了第二个，全程没有被识别出来。

2026 年 3 月初，奥尔特曼飞去见省长和镇长，说要道歉，但需要时间，让社区先哀悼。2026 年 4 月 23 日，信签出来。4 月 24 日，通过当地媒体 Tumbler RidgeLines 发布，省长同步在 X 上转发。

English 小部分

道歉信原文不长，摘几段关键的：

To the community of Tumbler Ridge:

The pain your community has endured is unimaginable. I have been thinking of you often over the past few months.

I am deeply sorry that we did not alert law enforcement to the account that was banned in June. While I know words can never be enough, I believe an apology is necessary to recognize the harm and irreversible loss your community has suffered.

省长 Eby 转发了这封信，附了一句：道歉是必要的，但对坦布勒里奇家庭所受的伤害而言，远远不够。

这八个字是整件事最准确的判断。

梳理时间线

时间线不复杂，复杂的是时间线背后的东西。

它一直都在看

先说一件大多数人不知道的事，其实很多人也知道，只是一直没这么公开而已。

你在 ChatGPT 里说的每一句话，从来不是只有你和 AI 知道的秘密。OpenAI 的隐私政策写得清清楚楚：平台对用户提交的内容进行扫描，用于防止欺诈、非法活动和服务滥用。收集的内容包括你所有的 prompt、输出结果、使用习惯、设备信息、IP 地址、浏览器数据。OpenAI 用这些数据训练模型，一部分对话由人工审核员手动分析。

这套全量 scanning 系统不是临时搭建的，是这门生意本来就有的基础设施。你在和 AI 说话，同时也在向一个持续运转的监控体系提供数据，后者用你的输入来训练模型、完善安全规则、规避合规风险。

OpenAI 用来拒绝上报警察的理由之一，是用户隐私。他们的逻辑是：向执法部门披露用户对话内容，需要达到极高的威胁阈值才能越线。这个逻辑在法律上不是完全没有道理。但平台已经在读这些对话了，这是绕不过去的矛盾。

读，但不说。

对普通用户，隐私保护意味着你说的话会被读、会被存、会被用于训练，但不会被交给警察。这套逻辑在通常情况下是成立的。但到了杰西的案子，这个逻辑变成了：系统识别出风险，员工建议上报，高层以隐私保护为由拒绝，结果八个人死了。

隐私保护这回不是盾牌，是挡箭牌——挡的不是箭，是责任。

阈值是谁定的

OpenAI 内部有一条规则，只有当用户行为构成 credible and imminent threat 时，才上报执法部门。这条规则的设计初衷不坏——如果什么都报，警察要累死，用户的隐私也没了。

问题是这条规则没有量化标准，没有法律定义，没有第三方监督，完全由企业自主裁量。

大约一打员工审核了标记的对话，部分人建议联系加拿大警方，公司领导层推翻了这个建议，理由是这些对话没有达到更高的上报门槛。一线员工的专业判断，被高层一票否决。

这个机制设计的终点，是让组织利益最终高于安全判断。

OpenAI 事后改了规则，降低了上报阈值，与 RCMP 建立了直连联系渠道。但所有这些变化都是自愿的，不是法律要求的。

改进是主动的，主动的改进也可以主动地撤销。

从“道歉”开始，里面很多东西才是真正细思极恐了。

当商业模型公司作恶

现在往前再想一步。

你跟 ChatGPT 说的，不只是你的对话记录。你的个人简历、生活情况、情绪状态、工作困惑、深夜睡不着时的胡思乱想——LLM 全知道。这些数据不是意外积累的，是设计好的。平台需要这些数据训练模型、完善安全规则、规避合规风险。

问题来了：当一家商业模型公司掌握了你几乎所有的私人数据，它利用这些数据作恶的边界在哪里？

这次枪击案之前，OpenAI 的 scanning 系统是用来保护平台安全的。出事之后才发现，同一套系统也可以选择沉默。监控你，是为了保护自己；不报警，也是为了保护自己。两副药方开自同一张处方，治的都是公司的病，不是你的。

如果商业模型公司利用 LLM 来作恶——比如把用户数据卖给广告商、用对话记录做信用评估、在用户不知情的情况下建立心理画像——需要承担什么责任？现有法律框架里，这条线是模糊的。

坦布勒里奇之后，全球多家 AI 公司同步修订了内容审核与执法通报规则。改了，但改的是症状，不是病因。病因在结构里。

数据主权是什么

回到坦布勒里奇的根子上，问题不是 OpenAI 报不报警，问题是谁拥有你的数据。

你跟 ChatGPT 说话，数据存在 OpenAI 的服务器上，受美国法律管辖，美国情报机构可以依据 CLOUD Act 无门槛调取，你在北京的对话、在东京的对话、在柏林的对话，全都躺在美国的机房里。加拿大警方连本国用户的暴力风险数据都拿不到。

这不叫数据保护，这叫数据寄存——你把行李放进别人的柜子，钥匙也在别人手里，你还说那是你的行李？

数据主权说的是：我的数据我控制。不是公司替我保管，不是政府替我审批，是我自己决定谁能看、谁能用、谁能拿走。

在中心化的世界里，这句话是空话。公司说"你的数据你做主"，但服务器在它手里，代码它写的，规则它改——你的"做主"是它施舍的。你说不做训练，它改个隐私政策，你就做了训练。你说删掉，它 30 天后删掉明文，但训练过的 weight 里还有你说话的痕迹，删不掉。

web3 要做的事，是从技术上把这句话变成实话。

TEE：锁不在山姆手里

第一个能落地的东西，叫 TEE。

TEE 的全称是 Trusted Execution Environment，可信执行环境。简单说，芯片里有一块隔离区域，操作系统碰不到，管理员碰不到，即使服务器被黑了也碰不到。数据进去了，在里头跑，跑完了出来，外面的人从头到尾看到的都是密文。

这跟现在的加密方式不一样。现在你跟 ChatGPT 说话，数据在传输过程中是加密的（TLS），但在 OpenAI 的服务器上是明文——服务器得读到你的内容才能给你回复。TEE 把加密延伸到了计算环节：数据在计算的时候也是加密的，模型在 TEE 里面看到明文，但 TEE 外面没人能偷看。

Phala Network 在做这件事。他们把 LLM 跑在 Intel TDX 的 confidential VM 里，NVIDIA 的 H100/H200 GPU 也支持 confidential computing，模型权重和推理数据在 GPU 内存里加密，即使机房管理员也拿不到。用户还可以通过远程 attestation 验证：这台机器确实跑在 TEE 里，跑的是不是它声称的那个模型。Phala 的 Trust Center 提供公开的验证端点。

Marlin 的 Oyster 走了另一条路。它做的是 serverless TEE——像 AWS Lambda 一样，开发者把 AI 工作负载丢进去，不用管底层。用 Nix 做 reproducible build，保证跑的代码跟你提交的一致。每份 attestation 都锚定在链上，智能合约可以自动验证。

Secret Network 则把 NVIDIA GPU TEE 跟区块链的 key management 结合在一起。AI 推理的 endpoint 跟 OpenAI API 兼容，但密钥由链上合约控制，不是由某个运维人员控制。2026 年已有医疗和金融企业在试用。

Oasis Network 的 Sapphire ParaTime 专注 federated learning。多家医院各自在 TEE 里训练模型，只把加密的梯度更新汇总，原始患者数据不出院。2026 年已有欧洲医院网络在用。

这些项目做的是同一件事：不是让公司承诺不看你的数据，是让公司在技术上看不到你的数据。承诺可以反悔，技术不行。

FHE：加密了还能算

TEE 依赖硬件，有人觉得不够——硬件厂商可能被施压，enclave 不是铜墙铁壁。那就得想别的办法。

FHE（Fully Homomorphic Encryption，全同态加密）是密码学里追了最久的一只兔子。它的意思是：数据加密之后，你还能在密文上做计算，算完了解密，结果跟明文算的一模一样。整个过程数据都没有解密过。

这件事 2009 年 Gentry 证明了理论上可行，但慢得离谱——比明文计算慢百万倍。到 2026 年，Zama 把 FHE 推到了 mainnet。他们的 fhEVM 跑在以太坊上，加密计算可以到 20 TPS，不够快，但能用。2026 年 Q1 的 GPU 加速版本预计能到 100+ TPS。Zama 还有一个叫 Concrete ML 的库，专门做 FHE 加速的机器学习推理，从 2021 年到现在，神经网络推理速度提了 21 倍——追了十七年，总算从蜗牛变成了乌龟。

Fhenix 走了另一条路。它做了一个 FHE coprocessor，部署在 Arbitrum 和 Base 上，已有的应用加一行代码就能加密。2026 年 2 月他们发了 DBFV 算法，大幅加速精确 FHE 计算。

Inco Network 走的是混合路线：对延迟敏感的操作走 TEE 快速通道，对保密要求极高的操作走 FHE 加 MPC 的安全通道，开发者按工作负载选信任模型。

FHE 的瓶颈在性能。大模型训练目前还跑不动，推理也只支持小模型。Zama 自己说，到 2027-2028 年出 FHE 专用 ASIC，目标 10 万 + TPS。在那之前，FHE 是补药，不是主食。

zkML：你算的对不对，我验证一下

TEE 和 FHE 解决的是"你能看到我的数据吗"。还有一笔账要算："你跑的是不是你说的那个模型？"

你让一个 AI 模型给你做医疗诊断，你怎么知道它跑的是它声称的那个模型，而不是一个偷偷降了级的便宜货？你怎么知道推理结果没有被篡改？这就像你点了一份和牛，端上来的是不是和牛，你得有个办法验。

zkML（Zero-Knowledge Machine Learning）回答这个问题。它用零知识证明来验证 AI 计算：我看不到你的输入，看不到模型的 weight，但我能验证输出确实是那个模型跑出来的。

EZKL 是目前最成熟的 zkML 框架。它能把 PyTorch 和 ONNX 模型转成 Halo2 zkSNARK 电路，一行 Python API 搞定。2026 年已经通过审计，在医疗诊断和 DeFi 风控模型上有真实部署。他们的 Lilith 分布式 proving 集群每天能处理 20 万 + 证明。

Giza 用的是 STARK 证明——不需要 trusted setup，抗量子计算。Lagrange Labs 的 DeepProve-1 更猛，第一个实现了对完整 LLM 推理（GPT-2 124M 参数）的 zk 证明，比 EZKL 快 1000 倍。

zkML 的限制是模型大小。当前的生产级验证还集中在中小模型，GPT-4 那个量级还做不到实时证明。但方向是清楚的：模型的执行可以被公开验证，不需要信任任何公司。

MPC：你的归你，我的归我，算完大家分

如果数据分散在多个机构手里，谁都不想给对方看自己的原始数据，但大家想联合训练一个模型，怎么办？

MPC（Multi-Party Computation，多方安全计算）干的就是这个活。每个参与方只出自己那份加密碎片，计算过程里没有任何一方能看到完整的输入数据。

微软的 EzPC 平台已经在医疗场景落地了。多家医院用 rs-fMRI 数据做神经疾病诊断，模型推理走 MPC 协议，医院之间不共享患者数据。中佛罗里达大学的 SecureRouter 系统用两方 MPC 做加密 AI 推理路由，支持到 3.4 亿参数的模型。

MPC 的问题是慢。BERT-Base 推理在 10Gbps 局域网里要 1.68 秒，明文只要几十毫秒，差了两个数量级。所以 MPC 现在只用在不需要实时响应的场景里。

数据归谁：NFT 和 Token

上面说的都是技术层面的隐私保护。再往下挖一层：数据到底归谁？

Vana 的思路最直接。他们做了一个 EVM 兼容的 Layer 1，核心机制是 DataDAO——用户把数据贡献进一个池子，池子由 DAO 治理，数据用 VRC-20 token 标记贡献份额。AI 开发者要访问数据，得烧 token，收入按比例回流给贡献者。数据始终加密存储，密钥在用户手里。2025 年 mainnet 上线，已有一百万用户。

Itheum 做的是 Data NFT。你的数据变成一个 NFT，你持有这个 NFT，就持有这份数据的 license。想授权给 AI 公司训练？你自己定价。想收回？NFT 还在你钱包里。已覆盖以太坊、Solana、MultiversX 多条链，2026 年有音乐厂牌在用它做 AI 训练数据授权。

Streamr 更早，从 2017 年就在做去中心化实时数据流。2026 年升级后支持 AI 训练数据流，用户可以按 stream 出售数据的使用权，用 DATA token 结算。

这三家做的是同一件事：把数据的所有权从公司条款变成链上资产。条款可以偷偷改，链上资产不行——至少得有个交易记录。

跨境数据主权

坦布勒里奇还捅开了一个更深的窟窿：跨境数据管辖权。

OpenAI 的全球用户数据存在美国服务器上，受 CLOUD Act 管辖。美国执法部门可以强制要求 OpenAI 交出任何用户的数据，不管这个用户在哪个国家。加拿大警方在案发前八个月拿不到本国用户的风险信息，美国 FBI 却可以随时调取。这条管道是单向的——水只往一个方向流。

web3 的技术架构可以从几个层面堵这个窟窿。

一是用户端加密加用户控钥。数据在用户设备上加密后才上传，密钥只在用户手里。云服务商收到 CLOUD Act 命令，交出的是密文，没有密钥解不开。

二是 TEE 隔离。数据在 enclave 里处理，密钥由 enclave 内部生成和管理，云服务商的运维人员拿不到，政府也拿不到。

三是多区域 sovereign mesh。原始数据在本国存储和处理，只有加密的元数据或聚合结果跨境流通。本地的分片保证用户数据不离开本国司法管辖区，除非用户明确授权。

2026 年已经有监管开始认可这些方案。欧盟 MiCA 允许去中心化数据存储和 token 化数据模型用于金融服务，NIS2 指令承认 TEE 是供应链风险管控的有效手段。加拿大隐私专员办公室发布了指引，认可客户端加密和用户控钥作为对抗 CLOUD Act 的合法保障。巴西央行批准了 web3 数据 token 化模型用于开放银行数据共享。联合国国际贸易法委员会发布了草案，承认链上数据所有权记录的法律效力。

起步阶段，但方向清楚：数据主权不是空喊的口号了，已经有监管框架在承认技术手段的有效性。

能和不能

说了这么多，得说实话。

web3 现在能做的事：小模型和中模型的推理可以在 TEE 里跑，生产可用。联邦学习可以做。数据的链上所有权可以确权和交易。零知识证明可以验证中小模型的执行。跨境数据管辖的技术缓解手段已有监管认可。

web3 现在做不了的事：GPT-4 级别的大模型全链上训练还做不到。FHE 跑大模型推理还太慢。MPC 的延迟在实时场景里不可接受。TEE 的安全性依赖硬件芯片，Intel 和 NVIDIA 被政府施压的可能不是零。去中心化节点如果规模不够大，女巫攻击的成本也不高。监管如果走向极端，要求所有 AI 服务必须留后门，技术手段也挡不住行政命令。

但方向是对的。中心化的 AI 架构把数据主权交给了公司，公司又把钥匙交给了法律框架，而法律框架在跨境场景里保护不了你。web3 做的是在技术层把锁的钥匙从公司手里拿回来——不是靠承诺，是靠密码学。