加密领域需要自己的 Benchmark。
撰文:王超
在技术进步的编年史上,革命性技术往往独立出现,各自引领一个时代的变革。而当两股革命性技术相遇,它们的碰撞往往会产生指数级的影响。如今,我们正站在这样一个历史性时刻:人工智能与加密技术,这两种同样具备颠覆性的新技术,正携手步入舞台中央。
我们畅想 AI 领域的诸多挑战能够被加密技术所解决;我们期待 AI Agent 构建自主经济网络,推动加密技术的大规模采用;我们也盼望 AI 能加速加密领域现有场景的发展。无数目光聚焦于此,海量资金疯狂涌入,就如任何 buzzword 一样,它凝聚了人们对创新的渴望、对未来的憧憬,也包含了难以抑制的野心与贪欲。
然而在这一片喧嚣中,我们却对最基本的问题知之甚少。AI 究竟有多懂加密领域?配备了大语言模型的 Agent 是否具备运用加密工具的实际能力?不同的模型在加密任务上的差异有多大?
这些问题的答案将决定 AI 和加密技术的相互影响力,也对这个交叉领域的产品方向和技术路线选择至关重要。为了探究这些问题,我做了一些大语言模型的评估实验。通过评估它们在加密领域的知识和能力,衡量 AI 的加密应用水平,判断 AI 与加密技术融合的潜力和挑战。
大语言模型在密码学和区块链基础知识方面表现卓越,对加密生态非常了解,但在数学计算和复杂业务逻辑分析上表现很差。在私钥和基本钱包操作方面,模型有着令人满意的基础,但面临如何云端保管私钥的严峻挑战。很多模型能够生成简单场景的有效智能合约代码,但无法独立执行合约审计、复杂合约创建等高难度的工作。
商业闭源模型总体有较大领先,开源阵营中仅 Llama 3.1-405B 表现突出,而参数规模较小的开源模型全体不及格。然而潜力是有的,通过提示词引导、思维链推理和少样本学习技术,所有模型的表现都得到了大幅提升,领先的模型在一些垂直应用场景已经具备了较强的技术可行性。
选择了 18 个具备代表性的语言模型作为评估对象,包括:
这些模型涵盖了主流商业和流行开源模型,参数量从 3.8B 到 405B 有百倍以上的跨度。考虑到加密技术与数学的密切关系,实验还特别选择了两个数学优化模型。
而实验覆盖的知识领域包括密码学、区块链基础、私钥与钱包操作、智能合约、DAO 与治理、共识和经济模型、Dapp/DeFi/NFT、链上数据分析等。每个领域都由一系列由易到难的问题和任务组成,不仅测试模型的知识储备,也通过模拟任务测试其在应用场景中的表现。
任务的设计来源多样化,一部分来自加密领域多位专家的输入,另一部分由 AI 辅助生成,并经过人工校对,以确保任务的准确性和挑战性。其中一部分任务使用了形式较为简单的选择题,方便单独进行标准化的自动化测试和评分。而另一部分试验采用更加复杂的题目形式,测试过程则由程序自动化 + 人工 +AI 结合的方式进行。所有测试任务均采用了零样本推理方法进行评估,不提供任何示例、思维引导或者指令型提示。
由于实验本身设计的还比较粗糙,并不具备足够的学术严谨性,用来测试的问题和任务远远无法全面覆盖加密领域,测试框架也并不成熟。因此本文并不列举具体的实验数据,而是侧重分享一些实验中的洞察。
在评估过程中,大语言模型在加密算法、区块链基础知识和 DeFi 应用等各领域的基础知识测试中表现出色。例如在考察对数据可用性概念理解的问答题中,所有模型均给出了准确答案。而评估模型对以太坊交易结构的掌握程度的题目,尽管各模型在回答细节上略有差异,但总体上都包含了正确的关键信息。考察概念的选择题则更是没有难度,几乎所有模型的正确率都在 95% 以上。
概念性问答完全难不住大模型。
然而当涉及需要进行具体计算的题目时情况就倒了过来。一道简单的 RSA 算法计算题就让绝大多数模型陷入困难。这其实不难理解:大语言模型主要通过识别和复制训练数据中的模式来运作,而非通过深入理解数学概念的本质。这种局限性在处理抽象数学概念如模运算、指数运算时尤为明显。鉴于加密领域与数学紧密相关,这意味着直接依赖模型进行加密相关的数学计算是不可靠的。
在其他计算题目中,大语言模型的表现同样不尽如人意。例如计算 AMM 无常损失的简单题目,尽管不涉及复杂数学运算,但 18 个模型中仅有 4 个给出了正确答案。而另一道更为基础的计算出块概率题目,竟然所有模型全部答错了。竟然难倒了所有模型,无一算对。这不仅暴露了大语言模型在精确计算方面的不足,也反映出它们在业务逻辑分析上存在较大问题。值得注意的是,即便是数学优化模型,在计算类题目中也未能展现出明显优势,其表现令人失望。
然而,数学计算的问题并非无解。如果我们稍作调整,要求 LLMs 给出相应的 Python 代码而非直接计算结果,正确率就会大幅提高。以前述 RSA 计算题为例,大部分模型给出的 Python 代码都能顺利执行并得出正确结果。在实际生产环境中,更可以通过提供预设的算法代码来绕过 LLMs 自行运算的环节,这与人类在面对此类任务时的处理方式相似。而在业务逻辑层面,通过精心设计的提示词引导,也可以有效改善模型的表现。
如果问 Agent 采用加密货币的第一个场景是什么,我的答案是支付。加密货币几乎可以被视为 AI 原生的货币形式。相较于 Agent 在传统金融体系中面临的诸多障碍,利用加密技术为自身配备数字身份并通过加密钱包管理资金,是一个再自然不过的选择。因此,私钥的生成和管理、钱包的各类操作,构成了 Agent 能否自主使用加密网络的最基本技能要求。
安全生成私钥的核心在于高质量的随机数,这显然是大语言模型并不具备的能力。不过模型对私钥安全的认知是充分的,在被要求生成私钥时,绝大多数模型都选择利用代码(如 Python 的相关库)来引导用户自主生成私钥。即便有模型直接给出了私钥,也明确声明这仅用于演示目的,并非可直接使用的安全私钥。在这方面,所有大模型都展现出了令人满意的表现。
私钥管理则面临着一些挑战,这主要源于技术架构的固有限制,而非模型能力的不足。使用本地部署的模型时,生成的私钥可被视为相对安全。然而如果使用的是商业云端模型,我们必须假设私钥在生成的瞬间就已经暴露给了模型的运营方。但对于目标为独立工作的 Agent,具备私钥权限是必须的,这意味着私钥不能只在用户本地。在这种情况下,仅依靠模型本身已不足以确保私钥的安全性,需要引入可信执行环境或 HSM 等额外的安全服务。
如果假设 Agent 已经安全地持有私钥,在此基础上进行各类基本操作时,测试中的各种模型都表现出了良好的能力。虽然产出的步骤和代码常常存在错误,但在合适的工程架构下,这些问题在很大程度上是可以解决的。可以说从技术层面来看,让 Agent 自主进行基础的钱包操作已经不存在太多障碍。
智能合约的理解、利用、编写和风险识别能力是 AI Agent 在链上世界执行复杂任务的关键,因此也是实验的重点测试领域。大语言模型在这一领域展现出显著潜力,但同时也暴露了一些明显问题。
在测试中几乎所有模型都能正确回答基础合约概念,识别简单的 bug。在合约 gas 优化方面,大多数模型能够识别关键优化点,并分析优化可能带来的冲突。然而,当涉及深层业务逻辑时,大模型的局限性开始显现。
以一个 token vesting 合约为例:所有模型都正确理解了合约功能,大部分模型找出了几个中低风险漏洞。但是,对于一个隐藏在业务逻辑中、可能在特殊情况下导致部分资金被锁死的高风险漏洞,没有任何模型能够自主发现。在多个使用真实合约的测试中,模型的表现都大致相同。
这表明大模型对合约的理解仍停留在形式层面,缺乏对深层业务逻辑的理解。不过,在提供额外提示后,部分模型最终能够独立找出上述合约中隐藏较深的漏洞。基于这一表现判断,在良好的工程设计支持下,大模型已基本具备在智能合约领域担任 co-pilot 的能力。然而要独立承担合约审计等重要工作,仍有很长的路要走。
有一点需要说明,实验中代码相关的任务主要针对逻辑简单、代码量在 2000 行以内的合约。对于更大规模的复杂项目,在不进行微调或复杂提示词工程的情况下,我认为明显超出了当前模型的有效处理能力范围,并未列入测试。此外,本次测试仅涉及 Solidity,未包括 Rust、Move 等其他智能合约语言。
除了上述测试内容,实验还涵盖包括 DeFi 场景、DAO 及其治理、链上数据分析、共识机制设计以及 Tokenomics 等多个方面。大语言模型在这些方面均展现出了一定的能力。鉴于许多测试仍在进行中,且测试方法和框架正在不断优化,本文暂不对这些领域进行深入探讨。
在所有参与评测的大语言模型中,GPT-4o 和 Claude 3.5 Sonnet 延续了它们在其他领域的卓越表现,是毫无争议的领先者。面对基础问题时,这两个模型几乎都能给出准确答案;在复杂场景分析中,它们更是能够提供深入且论据充分的见解。甚至在大模型不擅长的计算类任务里也展现出了高胜率,当然这种「高」成功率是相对而言的,仍未达到在生产环境中稳定输出的水平。
在开源模型阵营中,Llama 3.1-405B 得益于其庞大的参数规模和先进的模型算法,遥遥领先于同类。在其他参数规模较小的开源模型中,各模型间并未呈现显著的性能差距。尽管得分高低略有不同,但整体都离及格线很远。
因此如果当前要构建加密相关的 AI 应用,这些中小参数量的模型不是合适的选择。
在我们的评测中,有两个模型特别引人注目。首先是微软推出的 Phi-3 3.8B 模型,它是本次参与实验的最小模型,然而它以不到一半的参数量就达到了与 8B-12B 模型相当的性能水平,在某些特定类别的问题上甚至表现更为出色。这一结果凸显了模型架构优化和训练策略的重要性,而不仅仅是依赖于参数规模的增加。
而 Cohere 公司的 Command-R 模型成为了一匹令人意外的「黑马」——反向的。Command-R 相对其他模型名气不那么大,但是 Cohere 是专注 2B 市场的大模型公司,我认为和 Agent 开发等领域还是有相当多的契合点,因此特意列入测试范围。但拥有 35B 参数的 Command-R 却在大多数测试中垫底,不敌许多 10B 以下的模型。
这一结果引发了思考:Command-R 在发布时主打的是检索增强生成能力,甚至都没公布常规的基准测试成绩。这是否意味着它是一把「专用钥匙」,只在特定场景下才能开启全部潜力?
在这一系列测试中,我们对 AI 在加密领域的能力有了初步的了解。当然这些测试还远未达到专业水准。数据集的覆盖范围远远不够,答案的量化标准相对粗略,尚缺乏精细且更为准确的评分机制,这都会影响评估结果的精确度,不排除会导致某些模型表现被低估。
在测试方法上实验仅采用了零样本学习(zero-shot learning)的单一方式,并未探索思维链条,少样本学习等能启发模型更大潜力的方式。而在模型参数上,实验均采用了标准模型参数,并未考察不同参数设置对模型表现的影响。这些总体单一的测试方法限制了我们对模型潜力的全面评估,也未能充分挖掘模型在特定条件下的性能差异。
尽管测试条件相对简陋,这些实验依然产生了不少有价值的见解,为开发者构建应用提供了参考。
在 AI 领域,基准(benchmark)扮演着关键角色。现代深度学习技术的快速发展就源于李飞飞教授于 2012 年完成的 ImageNET,这正是一个计算机视觉领域的标准化基准和数据集。
通过提供统一的评估标准,基准不仅为开发者提供清晰的目标和参考点,还推动了整个行业的技术进步。这解释了为什么每个新发布的大语言模型都会重点公布其在各种基准测试上的成绩。这些结果成为了模型能力的「通用语言」,使研究者能够定位突破口,开发者可以选择最适合特定任务的模型,而用户则能够基于客观数据做出明智选择。更重要的是,基准测试往往预示着 AI 应用的未来方向,引导资源投入和研究焦点。
如果我们相信 AI 与加密技术的交叉领域蕴含巨大潜力,那么建立专门的加密领域基准测试就成为一项迫切的任务。基准测试的建立可能成为连接 AI 与加密两大领域的关键桥梁,催化创新,并为未来应用提供清晰指引。
不过与其他领域的成熟 benchmark 相比,构建加密领域的基准测试面临独特挑战:加密技术快速演进,行业知识体系尚未固化,多个核心方向缺乏共识。作为跨学科领域,加密涵盖密码学、分布式系统、经济学等,复杂度远超单一领域。更具挑战性的是,加密基准不仅需评估知识,还需考察 AI 运用加密技术的实际操作能力,这要求设计全新的评估架构。而相关数据集的匮乏进一步增加了难度。
这项任务的复杂性和重要性决定了它无法由单一个人或团队完成。它需要汇集从用户、开发者、密码学专家、加密研究者到更多跨学科领域人士的多方智慧,依赖广泛的社区参与和共识。也因此,加密基准需要更广泛的讨论,因为这不仅是一项技术工作,更是对我们如何理解这一新兴技术的深刻反思。
后记:聊到这里,话题还远没有结束。在接下来的文章中,我将深入探讨构建加密领域 AI 基准的具体思路和挑战。实验目前也还在进行,正在不断优化测试模型、丰富数据集、完善评测框架,并改进自动化测试工程。秉持开放协作的理念,未来所有相关资源——包括数据集、实验结果、评测框架和自动化测试代码都会作为公共资源开源。
【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。