Coinbase 深度分析 Crypto x AI 是否是海市蜃楼?

WEEX 唯客博客, 原文标题:Crypto’s AI Mirage 作者:David Han,Coinbase 机构研究分析师 编译:DAOSquare 发布日期:March 6, 2024 摘要:人工智能代币已经获得了 Crypto 和 AI 市场的广泛支持,但在中短期内可能缺乏可持续的需求驱动力。 速览 去中心化的加密人工智能 (Crypto-AI) 应用在中短期内面临诸多阻力,可能会妨碍它们的采用。然而,围绕 Crypto 和人工智能的建设性叙事可能会维持一段时间的交易叙事。 关键要点 人工智能 (AI) 和 Crypto 之间的交集范围很广,而往往少有人对此有较深的认识。我们认为,处于交叉点的不同子领域具有截然不同的机会和发展周期。 我们通常认为,对于人工智能产品来说,去中心化本身的竞争优势是不够的,它还必须在某些其他关键领域与中心化对手保持功能对等。 我们的反向观点是,由于市场对人工智能行业的广泛关注,导致许多人工智能代币的价值潜力可能被夸大了,而且许多人工智能代币在中短期内可能缺乏可持续的需求驱动力。 近年来,随着人工智能的持续突破 ( 特别是在生成式人工智能方面 ) 造就了人们对人工智能行业的高度关注,并为介于两者之间的加密项目提供了机会。我们之前在 2023 年 6 月的一份报告中介绍了该行业的一些可能性,并指出,从 Crypto 的总体资本分配来看,似乎人工智能领域被低估了。此后,加密人工智能领域开始了迅猛的发展。此刻,我们认为强调可能阻碍其广泛采用的某些实际挑战非常重要。 人工智能的快速变化使我们对一些 Crypto 平台大胆声称其独特的定位将颠覆整个行业的说法持谨慎态度,这使得大多数人工智能代币的长期和可持续的价值累积变得不确定,尤其是对于那些固定代币模型的项目而言更是如此。相反,我们认为,鉴于更广泛的市场竞争和监管因素,人工智能领域的一些新兴趋势实际上可能会使基于 Crypto 的创新更难被采用。 也就是说,我们认为人工智能和 Crypto 之间的交集是广泛的,并且有着不同的机会。某些子领域的采用速度可能会更快,尽管许多此类领域缺乏可交易的代币。不过,这似乎并没有阻碍投资者的胃口。我们发现,人工智能相关的加密代币的表现受到了人工智能市场热潮的驱动,即使在比特币交易走低的日子里,也可以支持其积极的价格走势。因此,我们认为许多与人工智能相关的代币可能会继续作为对人工智能进步的代表被交易。 人工智能的主要趋势 在我们看来,人工智能领域(与加密人工智能产品相关)最重要的趋势之一是延续围绕开源模型的文化。已经有超过 53 万个模型在 Hugging Face(AI 社区的协作平台)上公开可用,供研究人员和用户运行和微调。Hugging Face 在 AI 协作中的作用与依赖 Github 进行代码托管或依赖 Discord 进行社区管理(两者都在加密中广泛使用)没有什么不同。我们认为这种情况在不久的将来不太可能改变,除非存在严重的管理不善。 Hugging Face 上可用的模型范围从大型语言模型 (LLMs) 到生成图像和视频模型,它们来自 OpenAI、Meta 和 Google 等主要行业参与者,以及独立开发者。一些开源语言模型甚至在吞吐量方面比最先进的闭源模型具有更好的性能优势(同时保持可比的输出质量),这确保了开源模型和商业模式之间一定程度的竞争(见图 1)。重要的是,我们认为这个充满活力的开源生态系统,结合有竞争力的商业部门,已经推动了一个行业,在这个行业中,表现不佳的模型将被竞争所淘汰。 第二个趋势是小型模型的质量和成本效益不断提高(早在 2020 年的 LLM 研究中就曾强调这一点,最近在 MIcrosoft 的一篇论文中也强调了这一点),这也与开源文化相吻合,以进一步实现高性能、本地运行的 AI 模型的未来。在某些基准测试下,一些经过微调的开源模型甚至可以胜过领先的闭源模型。在这样的世界里,一些人工智能模型可以在本地运行,从而最大限度地去中心化。当然,现有的技术公司将继续在云上训练和运行更大的模型,但在两者之间的设计空间中会有权衡。 另外,鉴于人工智能模型基准测试的任务日益复杂化(包括数据污染和变化的测试范围),我们认为生成模型输出最终可能最好由终端用户在自由市场中进行评估。事实上,已有一些工具供终端用户进行模型输出的并行比较,也有一些基准测试公司提供相似的服务。对于生成人工智能基准测试的难度,可以从不断增长的各种开放的 LLM 基准测试中看到,包括 MMLU、HellaSwag、TriviaQA、BoolQ 等,每一种都测试了不同的用例,如常识推理、学术话题和各种问题格式等。 我们在人工智能领域观察到的第三个趋势是,具有强大用户锁定或具体业务问题的现有平台能够从人工智能集成中超额受益。例如,Github Copilot 与代码编辑器的集成增强了已经很强大的开发者环境。将人工智能界面嵌入到如邮件客户端、电子表格、客户关系管理软件等其他工具中也是人工智能的自然用例(例如,Klarna 的 AI 助手可以完成 700 名全职代理的工作)。 然而需要注意的是,在许多这样的场景中,人工智能模型不会催生新的平台,而只是增强现有的平台。其他改善传统业务流程的人工智能模型(例如,Meta 的 Lattice 在 Apple 推出 App Tracking Transparency 后恢复了其广告性能)通常也依赖于专有数据和封闭系统。由于这些类型的人工智能模型是垂直集成到其核心产品中的,并且使用专有数据,因此它们可能会始终保持闭源状态。 在人工智能硬件和计算领域,我们看到了另外两个相关的趋势。首先是计算使用从训练到推理的过渡。也就是说,当人工智能模型首次开发时,大量计算资源用于通过向模型提供大型数据集来 “训练” 模型。现在,它已转向了模型部署和模型查询。 英伟达在 2024 年 2 月的财报电话会议中披露,他们大约 40% 的业务是推理,而萨塔亚·纳德拉 (Sataya Nadella) 在微软的 1 月财报电话会议上也发表了类似的言论,指出他们的 Azure AI 使用 “大部分” 是用于推理的。随着这一趋势的持续,我们认为寻求将其模型货币化的实体将优先考虑能够以安全和生产就绪 (production-ready) 的方式可靠运行模型的平台。 我们看到的第二个主要趋势是围绕硬件架构的竞争格局。英伟达 (Nvidia) 的 H200 处理器将于 2024 年第二季度上市,下一代 B100 的性能预计将进一步翻倍。此外,Google 对其自有的张量处理单元 (TPUs) 的持续支持以及 Groq 的新语言处理单元 (LPUs) 可能在未来几年中也会增强他们在此领域的市场份额(参见图 2)。这些发展可能会改变人工智能行业的成本动态,并可能使那些能够快速调整、大规模采购硬件并设置任何相关物理网络和开发工具的云服务提供商受益。 总体而言,人工智能领域是一个新兴且发展迅猛的领域。ChatGPT 于 2022 年 11 月首次投放市场迄今不到 1 年半的时间(尽管其底层 GPT-3 模型自 2020 年 6 月以来就已经存在),此后该领域的快速发展令人震惊。尽管有一些关于生成式 AI 模型背后的偏见存在,但我们已经开始看到市场在优胜劣汰上的效应 ( 忽略性能较差的模型,转而选择更好的替代品 )。该行业的快速发展和即将出台的法规意味着随着新的解决方案将不断涌入市场,该行业的问题空间也会随之变化。 经常被吹捧的一揽子措施 “权力下放解决了 [插入问题]” 虽然似乎已经成为共识,然而在我们看来,对于这样一个快速创新的领域来说,还为时过早。而且它还先发制人地解决了可能并不一定存在的中心化问题。现实情况是,通过许多不同公司和开源项目之间的竞争,人工智能行业在技术和业务垂直领域已经有很多去中心化的现象。此外,在技术和社会层面上,真正去中心化的协议在决策和共识过程上比中心化协议要慢很多。这可能会对在人工智能发展所处的现时阶段中寻求平衡去中心化和具有竞争力的产品构成障碍。也就是说,我们确实认为 Crypto 和人工智能之间存在一些有意义的协同作用,但它更多的是在更长的时间范围内。 确定机会范围 从广义上讲,我们将人工智能和 Crypto 的交叉点分为两大类。首先是人工智能产品改善加密行业的用例。这包括创建人类可读的交易、改进区块链数据分析,以及在无需许可的协议中使用模型输出的场景。第二类则是旨在通过 Crypto 的计算、验证、身份等去中心化方法打破传统 AI 流程的用例。 在我们看来,在前一类别中,与业务一致的那些场景中的用例是明确的,我们相信,尽管仍然存在重大的技术挑战,但从长期来看,它们在更复杂的链上推理模型场景中依然会有前景。中心化的 AI 模型可以像任何其他以技术为中心的行业一样改进 Crypto,例如开发者工具、代码审计,以及将人类语言转化为链上动作。但目前这一领域的投资通常通过风险投资获而归私人公司所有,因此通常被公开市场所忽视。 然而,对我们来说不太确定的是第二类的价值主张(即 Crypto 将打破现有的人工智能格局)。后一类的挑战取代了技术性的挑战(我们认为从长远来看,技术性挑战通常是可以解决的),并且是与更广泛的市场和监管力量的艰难较量。然而尽管如此,一个现实现象是,最近对人工智能 + Crypto 的大部分关注都集中在这一类别上,因为这些用例更适合创造流动代币。这是我们在下一节中的重点,在 Crypto 中,与中心化的 AI 工具相关的流动性代币相对较少(暂时如此)。 Crypto 在 AI 中的作用 为了简化,我们通过 AI 流程的四个主要阶段来分析 Crypto 对 AI 的潜在影响,这四个阶段分别是:(1)数据的收集、存储和处理,(2)模型的训练和推理,(3)模型输出的验证,(4)AI 模型输出跟踪。这些领域已经出现了一大批新的加密人工智能项目,尽管我们认为在中短期内,许多项目将面临需求方生成的重大挑战,以及来自中心化公司和开源解决方案的激烈竞争。 专有数据 数据是所有 AI 模型的基础,也许是专业 AI 模型性能的关键差异化因素。历史区块链数据本身就是模型的一种新的丰富数据源,某些项目(如 Grass)也旨在利用 Crypto 激励措施从开放的互联网中获取新的数据集。在这方面,Crypto 有机会提供行业特定的数据集,并激励创建新的有价值的数据集。(Reddit 最近与 Google 达成的 6000 万美元年度数据许可协议预示着未来数据集货币化的增长趋势) 许多早期的模型(如 GPT-3)混合使用了 CommonCrawl、WebText2、书籍和维基百科等开放数据集,并在 Hugging Face 上免费提供了类似的数据集(目前托管超过 110,000 个选项)。然而,可能是为了保护其商业利益,许多最近发布的闭源模型并没有公开他们的最终训练数据集组合。我们认为,专有数据集的趋势,特别是在商业模式中,仍将继续下去,并导致数据许可的重要性增加。 现有的中心化数据市场已经在帮助弥合数据提供者和消费者之间的差距,我们认为这将为开源数据目录和企业竞争者之间创造一个新兴的去中心化数据市场解决方案的机会空间。在没有法律结构支持的情况下,一个纯粹的去中心化数据市场还需要构建标准化的数据接口和通道,验证数据完整性和配置,并解决其产品的冷启动问题。同时还需要平衡市场参与者之间的代币激励。 另外,去中心化存储解决方案最终也可能在人工智能行业找到一个利基市场,尽管我们认为在这方面仍然存在不小的挑战。一方面,用于分发开源数据集的渠道已经存在并已被广泛使用。另一方面,许多专有数据集的所有者有严格的安全性和合规性要求。目前还没有任何监管途径可以作用于在 Filecoin 和 Arweave 等去中心化存储平台上托管敏感数据。事实上,许多企业仍在从本地服务器过渡到中心化云存储提供商。在技术层面上,这些网络的去中心化性质目前也与敏感数据存储的某些区域性问题和物理数据孤岛要求不兼容。 虽然在去中心化存储解决方案和成熟的云提供商之间也进行价格比较表明,就单个储存单元而言,去中心化方案可能更便宜,但我们认为这忽略了更大的问题。首先,除了日常运营费用之外,还需要考虑到在供应商之间迁移系统所需的前期成本。其次,基于 Crypto 的去中心化存储平台需要去匹配过去二十年发展起来的成熟云系统所提供的更好的工具和集成。从业务运营的角度来看,云解决方案的成本更可预测,并且提供了合同义务和专门的支持团队,而且还拥有庞大的开发者人才库。 同样值得注意的是,仅与 “三大” 云提供商(AWS,Google 云平台和 Microsoft Azure)的粗略比较是不完整的。还有数十家低成本的云公司也通过提供更便宜的、基本的服务器等服务来争夺市场份额。在我们看来,近期而言,他们才是那些成本敏感型消费者的真正的主要竞争对手。也就是说,最近的创新,如 Filecoin 的数据计算和 Arweave 的 ao 计算环境,可能会为即将到来的一些创新项目发挥作用,这些项目通常使用的是不太敏感的数据集,或者是对成本最为敏感(可能更小)的公司,而这些公司尚未锁定供应商。 因此,虽然在数据领域肯定有新的 Crypto 产品的空间,但我们认为,短期突破将发生在它们可以产生独特的价值主张的情况下。在我们看来,去中心化产品与传统和开源竞争对手正面竞争的领域将需要更长的时间才能取得实质性进展。 训练和推理模型 Crypto 中的去中心化计算(DeComp)领域也旨在成为中心化云计算的替代品,部分原因是现有的 GPU 供应紧缩。一种针对这种短缺的提出的解决方案,例如 Akash 和 Render 等协议所采用的是将闲置的计算资源重新整合进一个中心化网络中,从而降低中心化云提供商的成本。据初步指标显示,此类项目似乎在用户和供应商的采用率上均获得了增长。例如,Akash 从今年年初至今的活跃租赁(即用户数量)增加了三倍(见图 3),这主要是由于其存储和计算资源的使用量增加。 然而,自 2023 年 12 月达到峰值以来,支付给网络的费用实际上已经下降,因为可用 GPU 的供应超过了对这些资源的需求增长。也就是说,随着越来越多的提供商加入该网络,租赁的 GPU 数量(按比例来看似乎是最大的收入驱动因素)已经下降(见图 4)。对于计算定价可以根据供需变化而变化的网络,如果供应端增长超过需求端,我们不清楚持续的、由使用驱动的原生代币需求最终将从何而来。我们认为,未来可能需要重新审视这种代币模型,以优化市场变化,尽管这种变化的长期影响目前尚不明确。 在技术层面,去中心化计算解决方案也面临着网络带宽限制的挑战。对于需要多节点训练的大型模型,物理网络基础设施层起着至关重要的作用。数据传输速度、同步开销,以及对某些分布式训练算法的支持意味着需要特定的网络配置和自定义网络通信(如 InfiniBand)来促进其高效执行。这导致一旦集群规模超过一定范围,便很难以去中心化的方式实现。 总体而言,我们认为去中心化计算(和存储)的长期成功面临着来中心化云提供商的激烈竞争。在我们看来,任何采用都将是一个长期过程,至少可以参考云服务采用周期。鉴于去中心化网络开发的技术复杂性增加,加上缺乏类似可扩展的开发和销售团队,我们认为完全执行去中心化计算愿景将是一个艰难的旅程。 验证和信任模型 随着人工智能模型在我们的生活中变得越来越重要,人们越来越担心它们的输出质量和偏见。某些加密项目旨在通过利用一套算法来评估不同类别的输出,从而找到一种去中心化的、基于市场的解决方案来解决这个问题。然而,上述围绕模型基准测试的挑战,以及明显的成本、吞吐量和质量权衡,使得正面竞争具有一定的挑战性。BitTensor 是该类别中最大的聚焦于人工智能的加密货币之一,旨在解决这个问题,尽管它依然存在一些可能阻碍其广泛应用的技术挑战(见附录 1)。 另外,无需信任的模型推理(即证明模型输出实际上是由所声称的模型生成的)是 Crypto x AI 的另一个积极研究领域。然而我们认为,随着开源模型规模的缩小,这些解决方案可能会在需求方面面临挑战。在一个可以下载并在本地运行模型,并通过已经建立的文件哈希 / 校验和方法验证内容完整性的世界里,无需信任的推理的角色重要性就不那么明确了。诚然,许多人 LLM 还不能通过手机等轻量级设备进行训练和运行,但强大的台式电脑(如用于高端游戏的台式电脑)已经可以用来运行许多高性能模型。 数据来源和身份 随着生成式人工智能的输出与人类的输出越来越难以区分,跟踪人工智能生成内容的重要性也成为人们关注的焦点。GPT-4 通过图灵测试的速度是 GPT-3.5 的 3 倍,我们几乎可以肯定,在不远的某一天,我们将无法区分在线人格是来自机器还是真实的人类。在这样的世界里,确定在线用户的人性以及给 AI 生成的内容填加水印将成为关键功能。 像 Worldcoin 这样的去中心化标识符和人格证明机制旨在解决前一个问题,即在链上识别人类。同样,将数据哈希发布到区块链可以通过验证内容的年龄和来源,从而助力数据来源。然而,与前面的部分类似,我们认为基于 Crypto 的解决方案的可行性必须与中心化的替代方案进行权衡。 一些国家,比如中国,将在线人格与政府控制的数据库联系起来。尽管世界上大部分地区都没有那么集中化,但 KYC 提供商联盟也可以提供独立于区块链技术的人格证明解决方案(可能以类似于构成当今互联网安全基石的可信证书颁发机构的方式)。还有关于 AI 水印的研究正在进行中,以在文本和图像输出中嵌入隐藏信号,以允许算法检测内容是否由 AI 生成。包括 Microsoft,Anthropic 和 Amazon 在内的许多领先的 AI 公司都已经公开承诺在其生成的内容中添加此类水印。 此外,出于合规性原因,许多现有的内容提供商已经受到信任,可以保留内容元数据的严格记录。因此,用户通常信任与社交媒体发布相关的元数据(尽管不是其屏幕截图),即使它们是中心化存储的。这里需要注意的是,任何基于 Crypto 的数据来源和身份解决方案都需要与用户平台集成才能广泛有效。因此,虽然基于 Crypto 的解决方案在证明身份和数据来源等方面从技术说是可行的,但我们也认为它们的采用并非既定事实,最终将取决于业务,合规和监管要求。 交易 AI 叙事 尽管有上述问题,但从 23 年第 4 季度开始,许多 AI 代币的表现都优于比特币和以太币,以及 Nvidia 和 Microsoft 等主要 AI 股票。我们认为这是因为 AI 代币通常受益于更广泛的 Crypto 市场以及相关人工智能热潮的相关表现(见附录 2)。因此,即使比特币价格下跌,以人工智能为重点的代币也会经历价格上涨波动,从而在比特币下行期间产生上行的波动性。图 5 展示了比特币交易下跌的日子里 AI 代币的表现。 总体而言,我们仍然认为人工智能叙事交易中缺少许多短期可持续的需求驱动因素。由于缺乏明确的采用预测和指标,导致了各种 meme 式的投机情绪占据了广泛空间,而在我们看来,这些推测可能不是长期可持续的。最终,价格和效用将会趋同,而悬而未决的问题是需要多长时间,以及效用是否会上升以匹配价格,反之亦然。也就是说,我们确实认为一个可持续的建设性 Crypto 市场和…

Previous:

Next: