解读Cysic:硬件加速与ZK矿业的崛起前夜

中级8/14/2024, 10:33:46 AM
本文先介绍ZK证明系统的工作流程,然后深入探讨了MSM和NTT这两种计算任务的加速挑战和最佳化策略。

今年4月,Vitalik造访香港区块链峰会,发表了题为《Reaching the Limits of Protocol Design》的演讲,其中再次提到ZK-SNARKs在以太坊Danksharding路线图中彰显出的潜力,并展望了ASIC芯片对ZK加速的巨大帮助。此前Scroll联创张烨也曾指出,ZK在传统领域的应用空间可能比在Web3内的还大,可信计算、数据库、可验证性硬件、内容防伪及zkML等领域都有对ZK的巨大需求,如果ZK证明实时生成可以落地,Web3和传统行业都有望迎来范式级的变革,但从效率和经济成本角度看,目前要让ZK投入大规模采用还尚且遥远。其实,早在2022年,顶级风投机构a16z和Paradigm就公开发表报告,明确表达了对ZK硬件加速的重视,Paradigm甚至断言:未来ZK矿工的收入可能比肩比特币或以太坊矿工,基于GPU和FPGA、ASIC的硬件加速方案将具备巨大的市场空间。此后,随着Scroll和Starknet等主流ZK Rollup的火热,硬件加速一度成为市场追捧的热点概念,这种热度随着Cysic等项目的临近上线而变得愈发浓重。

我们有理由认为,基于ZK的巨大需求空间,ZK矿池及实时ZKP生成的SaaS模式可以开辟出崭新的产业链,在这片颇具潜力的新大陆中,有实力支撑且具备先发优势的ZK硬件厂商完全可能成为下一代的比特大陆,雄踞硬件加速的沃土。而在硬件加速领域中,Cysic可能是最受关注的劲旅之一,该团队曾获得知名ZKP技术竞赛平台ZPrize的重要奖项,并在2023年开始作为ZPrize的导师;其路线图中囊括的ToB端ZK矿池与ToC ZK-Depin硬件更是吸引了Polychain、ABCDE、OKX Ventures和Hashkey等顶级VC的垂青,完成了总计近2000万美元的大额融资。随着7月底Cysic测试网即将上线,以及其ZK矿池的开放在即,各大社区中关于Cysic的讨论渐趋热烈,本文旨在让更多人了解Cysic的产品原理与业务模式,并对ZK硬件加速原理进行简单科普。在下文中,我们将对Cysic的相关知识进行简要概括,帮助更多人降低理解门槛。

从工作流程理解ZK证明系统

ZK证明系统其实是很复杂的,但如果要对其大体构造有个简单理解,可以从职能和工作流程角度进行分解。对于一个把普通计算ZK化的系统而言,其核心流程概括如下:

首先我们要通过前端与ZK系统交互,向其提交待证明的内容,前端会将这些内容进行格式转换,便于被ZK证明系统处理。之后,系统会通过特定的证明系统或框架(如Halo2、Plonk等)生成ZK Proof。这个过程可以细分为以下几步:1. 问题设置:首先我们要确定待证明的内容是什么。比如,证明者Prover声明自己掌握/知道某样数据,“我知道方程式F(x)=w的一个解N”,但他又不想让人看到N的数值。2.算术化与CSP:证明者提交待证明的内容后,系统会建立专门的数学模型/程序,等价的表达出待证明内容,然后进行格式转换,便于被证明系统处理。具体而言,前述声明“我知道方程F(x)=w的一个解N”将从原始的数学等式,转化为逻辑门电路和多项式的形态。

  1. 之后,系统将选择合适的证明系统如Halo、Plonk等,将前面几步生成的内容编译为可用的ZKP程序。证明者使用该ZKP程序生成证明,交由验证者做验证。

像zkEVM等频繁在以太坊二层当中被采用的ZK系统,本质是先将智能合约编译为EVM的底层操作码,然后对每个操作码进行格式转换,转化为逻辑门电路/多项式约束的形式,再交由后端的ZK证明系统做进一步处理。

值得一提的是,目前在区块链中被广泛使用的ZKP技术方案主要是zk-SNARK(零知识简洁非交互式知识论证),而ZK Rollup大多数利用了SNARK的简洁性而非零知识性。简洁性意味着ZKP占用的空间很小,可以把大量的内容压缩到几百个字节,验证成本非常低。这样一来,Prover和Verifier之间的工作量是不对称的,Prover生成ZKP的成本很高,Verifier的验证成本却很低,只要利用好这种不对称性,在“单一Prover,多个Verifier”的场景下采用ZK,可以将整体的成本集中在Prover侧,极大程度降低Verifier的成本,这种模式对去中心化验证极其有利,以太坊二层的思路便是如此。但这种将验证成本转嫁到ZK生成端的模式并不是银弹,对于ZK Rollup项目方而言,生成ZKP付出的高昂成本最终必然会再度转嫁到UX和手续费上,这并不利于ZK Rollup的长期发展。纵使ZK在去信任和去中心化验证的场景下有很大的用武之地,但受限于生成时间上的瓶颈,无论是zkEVM还是zkVM或是ZK Rollup和ZK桥,目前都不具备大规模采用的经济基础。对此,以Cysic、Ingonyama、Irreducible等为代表的ZK加速项目应运而生,分别从不同的方向尝试降低ZKP的生成成本。下文中,我们将从技术角度简要介绍ZKP生成的主要开销与加速方式,以及为何Cysic在ZK加速赛道具备巨大的潜力。

运算开销:MSM和NTT

很多人都知道,ZKP的Prover生成证明的时间开销非常的大。在ZK-­SNARK协议中经常会出现这样一种情况:Ver­i­fier只需要一秒就可以验证证明,但是证明的生成可能需要花费Prover半天甚至一天的时间。为了高效的使用ZKP证明计算,有必要要将计算格式从经典程序转换为ZK友好。目前有两种方法可以做到这一点:一种是使用一些证明系统框架编写电路,例如Halo2;另一种是使用领域特定语言 (DSL),如Cairo或Circom,将计算转换为中间表达形式,以便后续提交给证明系统。证明系统会根据编写的电路或DSL编译的中间表达形式来生成ZK证明。程序操作越复杂,生成证明所需的时间就越长。另外,某些操作在本质上对ZK不友好,实现它们需要额外的工作。例如,SHA或Keccak哈希函数是ZKP不友好的,使用这些函数将导致证明生成时间延长。而即便在经典计算机上执行成本很低的操作,也可能是ZKP不友好的。

而抛开ZK不友好的计算任务不说,虽然ZK证明生成过程可能因选用的证明系统而异,但其瓶颈本质上都是相似的。在ZK证明的生成中,有两种计算任务最消耗计算资源:MSM(Multi-Scalar Multiplication)和NTT(Number Theoretic Transform)。这两种计算任务可以占到证明生成时间的 80-95%,具体取决于 ZKP 的承诺方案和具体实现。MSM主要处理椭圆曲线上的多标量乘法,而NTT则是在有限域上的FFT(快速傅立叶变换),用于加速处理多项式乘法。使用不同的方案组合将带来不同的FFT/MSM负载比例。以Stark为示例,其PCS (Polynomial Commitment Scheme,多项式承诺方案)使用的是FRI,一种基于哈希的承诺,而不是像KZG或IPA所使用的椭圆曲线,因此完全没有MSM的计算。表中越靠上意味着需要越多的FFT运算,越靠下则需要越多的MSM运算。

优化方案

由于MSM运算涉及可预测的内存访问,虽可以大量并行化,但需要消耗大量的内存资源。另外,MSM还存在可扩展性挑战,即使并行化的前提下,也可能很慢,因此,虽然MSM有可能在硬件上加速,但它们需要巨大的内存和并行计算资源。

NTT往往涉及随机内存访问,这使得它们对硬件不友好,而且在分布式基础设施上难以处理,这是因为NTT随机访问的特点,其如果在分布式环境下运行,不可避免地要访问其他节点的数据,一旦涉及到网络交互,性能就会大大下降。

因此,存储数据的访问和数据移动成为一个主要的瓶颈,限制了NTT运算并行化的能力,加速 NTT的大部分工作,都集中在管理计算如何与存储器交互上。

其实,解决MSM和NTT效率瓶颈最简单的方法,是彻底消除这些操作。一些新提出的算法,比如Hyperplonk,对Plonk进行了修改,消除了NTT操作。这使得Hyperplonk更易于加速,但引入了新的瓶颈;再如计算成本较高的sumcheck协议。还有STARK算法, 它不需要MSM,但其FRI协议引入了大量哈希计算。

ZK硬件加速与Cysic的终极目标

尽管软件和算法层面的优化非常重要且具有价值,但存在明显的局限性。为了充分优化ZKP的生成效率,必须使用硬件加速,这就像ASIC和GPU最终称霸BTC和ETH挖矿市场。

那么问题是:加速ZKP生成的最佳硬件是什么?目前有多种硬件可以实现ZK加速,如GPU、FPGA或ASIC,当然他们各有优劣.

我们可以对比一下这几种硬件:

首先我们通过一个简单的例子来说明它们在开发层面的区别。比如,现在我们要实现一个简单的并行乘法:

  • 在GPU上,利用CUDA SDK提供的API,我们可以像写原生代码一样开发,从而获得并行计算的能力;
  • 在FPGA上,我们需要重新学习硬件描述语言,使用这种语言来控制硬件级别的连接,以实现并行算法;
  • 在ASIC上,芯片设计阶段硬件层面便直接固定好晶体管的连接排布,之后无法再进行修改。

这几种方案各有优劣,适用在ZK赛道的不同发展阶段。而Cysic致力于成为ZK硬件加速的终极解决方案,其分步战略为:

  1. 基于GPU开发SDK为ZK应用提供解决方案,并整合全网GPU资源;
  2. 利用FPGA的灵活性和各项平衡的特点,快速实现定制化的ZK硬件加速。
  3. 自主研发基于ASIC的ZK Depin硬件
  4. 而Cysic Network则将以SAAS平台/矿池的身份,整合ZK Depin与GPU的所有算力,为整个ZK行业提供算力与验证解决方案

下面让我们通过对多个细分赛道展开解读,来充分理解ZK加速方案的细分差异与Cysic的发展思路。ZK矿池与SaaS平台:Cysic Network其实,无论是Scroll还是Polygon zkEVM等知名ZK Rollup,都曾在其路线图中明确提出了“去中心化Prover”的概念,而这实际上就是构建ZK矿池。这种市场化的方式可以让ZK Rollup项目方减轻包袱,激励矿工和矿池运营方不断对ZK加速方案进行优化。而在Cysic的路线图中,已明确提出名为Cysic Network的ZK矿池与SaaS平台计划。它不但会集成Cysic自有算力,还将通过挖矿激励的方式吸收第三方算力资源,包括闲散的GPU和普通用户手上的zk DePIN设备。其整个验证工作流示意图如下:

  1. zk项目方将证明生成任务提交给代理人(Agent),后者的工作是将证明任务转发至验证网络。这些Agent在一开始将由Cysic官方运行,后续将引入资产质押,让任何人都能成为Agent;
  2. Prover接受证明任务,并使用硬件生成ZK证明,证明者需要质押Token来参与证明任务的承包,完成证明任务后将获得奖励;
  3. 验证者委员会负责检查Prover生成证明的有效性并进行投票,当达到一定的票数后,证明将被认为有效。验证者通过质押Token加入委员会,参与投票并获得奖励,这个过程可以结合EigenLayer的AVS概念,复用现有的Restaking设施。

其详细交互过程如下:

其实上面的流程中有个点,无论是资产质押还是激励分发,以及计算任务的提交等动作都需要依赖于某个专属平台,这就需要有区块链作为专用设施。为此Cysic Network搭建了一条专属公链,采用了一种独特的共识算法,称为 Proof of Compute (PoC),其基本原理是基于VRF函数和Prover的历史表现,比如设备的可用性、提交证明次数、Proof正确率等等,来选择出块人负责出块(注:它这里的区块应该是用于记录各台设备的信息和分发Token激励)。当然,在ZK矿池和SaaS平台之外,Cysic基于不同硬件的ZK加速方案上都进行了大量布局。接下来让我们分别了解其在GPU、FPGA和ASIC三条路线上的成果。

GPU、FPGA和ASIC

ZK硬件加速的核心在于将一些关键运算尽可能并行化。而从硬件的功能特性来看,CPU为了实现最大的灵活和通用,芯片中很大一部分面积都用来提供控制功能和各级缓存,这导致其并行计算能力较弱。在GPU当中,用作运算的芯片面积比例大大提高,这使其能够支持大规模的并行处理。现在GPU已经非常普及,例如Nvidia Cuda等库可以帮助开发人员利用GPU的并行性,而无需了解底层硬件,通过CUDA SDK可以封装CUDA ZK库加速MSM和NTT运算。而FPGA则由大量小型处理单元组成的阵列,要对FPGA进行编程,需使用专门的硬件描述语言,再将其编译为晶体管电路组合。所以FPGA实际上是直接用晶体管电路实现特定算法,而不需要经过指令系统的编译。这种定制性和灵活性要远胜GPU。目前FPGA价格大约仅是GPU的三分之一,且能效可以比GPU高出十倍以上。这种显著的能效优势部分原因在于GPU需要连接到主机设备,而主机设备通常消耗大量电力。可以说,FPGA可以在不增加能耗的情况下,增加更多的运算模块来应对MSM和NTT的需求。这使得FPGA特别适合计算密集型、需要高数据吞吐量和低响应时间的ZK证明场景。然而,FPGA最大的问题是鲜少有开发人员具备编程经验,对于ZK项目方而言,组织一个既拥有密码学专业知识、同时拥有FPGA工程专业知识的团队极其困难。而ASIC则相当于完全用硬件来实现某个程序,一旦设计完毕,硬件就无法更改,相应地,ASIC能够执行的程序自然也无法更改,只能用作特定任务。上面讲述的FPGA在MSM和NTT方面的硬件加速优点,ASIC同样也具备。而由于是专用电路设计,ASIC在所有方案里是效能最高、能耗最小的。对于目前主流的ZK Circuit,Cysic希望证明时间能实现1 - 5 秒的速度,想要达到这个目标,只有ASIC能够实现。虽然这些优点听起来非常吸引人,但ZK技术正在快速发展,而ASIC的设计和生产周期通常需要1-2年,并且成本高达1000-2000万美元。因此,必须要等到ZK技术足够稳定,才能投入大规模的生产,以避免生产出的芯片很快就过时。对此,在GPU和FPGA、ASIC这三个领域,Cysic都做了充分布局;在GPU加速方案层面,随着各种新型ZK证明系统的诞生,Cysic基于自研CUDA加速SDK对它们进行了适配,并通过聚拢社区资源的方式,在Cysic的GPU算力网络中链接了数十万张顶级算力显卡,同时Cysic CUDA SDK比最新的开源框架提速了50%-80%甚至以上。在FPGA上,Cysic通过自研方案,完成了全球最快的MSM、NTT、Poseidon Merkle tree等模块的实现,覆盖了ZK计算最主要的部分,而且该方案经过了多个顶级ZK项目的原型验证。Cysic自研的SolarMSM可以在0.195秒内完成2^30规模的MSM计算,而SolarNTT能在0.218秒内完成2^30规模的NTT计算,是目前所有公开的FPGA硬件加速结果中性能最高的。

而在ASIC领域,虽然距离ZK ASIC的大规模应用还有一定距离,但Cysic已经提前布局了这一赛道,并推出了自主研发的ZK DePIN芯片和设备。为了吸引C端用户,并满足不同ZK项目方对性能和成本的要求,Cysic将推出两款ZK硬件产品:ZK Air和ZK Pro。

ZK Air的大小与充电宝、笔记本电脑电源相近,普通用户可以直接通过Type-C接口将其连接到笔记本、iPad甚至手机上,为特定ZK项目提供算力支持并获得奖励。目前ZK Air算力仍然超越消费级显卡,可以加速小规模的ZK证明生成任务。ZK Pro则类似于传统矿机,算力达到了多块顶级消费级显卡互联GPU服务器的效果,能够大幅加速ZK证明的生成,适用于大型ZK项目,如ZK-Rollup和ZKML(Zero knowledge machine learning)。通过这两款设备,Cysic最终将构建一个稳定可靠的ZK-DePIN网络。目前这两款设备还在研发中,预计于2025年上市。此外,通过Cysic Network,C端用户能够以非常低的门槛加入到zk硬件加速市场,加上ZK项目方对算力的大量需求,这可能使市场再次掀起一波如同比特币挖矿一样的热潮,ZK计算领域的市场规模可能将再次迎来爆发式增长。

reference

https://medium.com/amber-group/need-for-speed-zero-knowledge-1e29d4a82fcdhttps://figmentcapital.medium.com/accelerating-zero-knowledge-proofs-cfc806de611b

声明:

  1. 本文转载自[极客 Web3],著作权归属原作者[Nickqiao & 雾月],如对转载有异议,请联系 Gate Learn团队,团队会根据相关流程尽速处理。

  2. 免责声明:本文所表达的观点和意见仅代表作者个人观点,不构成任何投资建议。

  3. 文章其他语言版本由Gate Learn团队翻译, 在未提及Gate.io的情况下不得复制、传播或抄袭经翻译文章。

解读Cysic:硬件加速与ZK矿业的崛起前夜

中级8/14/2024, 10:33:46 AM
本文先介绍ZK证明系统的工作流程,然后深入探讨了MSM和NTT这两种计算任务的加速挑战和最佳化策略。

今年4月,Vitalik造访香港区块链峰会,发表了题为《Reaching the Limits of Protocol Design》的演讲,其中再次提到ZK-SNARKs在以太坊Danksharding路线图中彰显出的潜力,并展望了ASIC芯片对ZK加速的巨大帮助。此前Scroll联创张烨也曾指出,ZK在传统领域的应用空间可能比在Web3内的还大,可信计算、数据库、可验证性硬件、内容防伪及zkML等领域都有对ZK的巨大需求,如果ZK证明实时生成可以落地,Web3和传统行业都有望迎来范式级的变革,但从效率和经济成本角度看,目前要让ZK投入大规模采用还尚且遥远。其实,早在2022年,顶级风投机构a16z和Paradigm就公开发表报告,明确表达了对ZK硬件加速的重视,Paradigm甚至断言:未来ZK矿工的收入可能比肩比特币或以太坊矿工,基于GPU和FPGA、ASIC的硬件加速方案将具备巨大的市场空间。此后,随着Scroll和Starknet等主流ZK Rollup的火热,硬件加速一度成为市场追捧的热点概念,这种热度随着Cysic等项目的临近上线而变得愈发浓重。

我们有理由认为,基于ZK的巨大需求空间,ZK矿池及实时ZKP生成的SaaS模式可以开辟出崭新的产业链,在这片颇具潜力的新大陆中,有实力支撑且具备先发优势的ZK硬件厂商完全可能成为下一代的比特大陆,雄踞硬件加速的沃土。而在硬件加速领域中,Cysic可能是最受关注的劲旅之一,该团队曾获得知名ZKP技术竞赛平台ZPrize的重要奖项,并在2023年开始作为ZPrize的导师;其路线图中囊括的ToB端ZK矿池与ToC ZK-Depin硬件更是吸引了Polychain、ABCDE、OKX Ventures和Hashkey等顶级VC的垂青,完成了总计近2000万美元的大额融资。随着7月底Cysic测试网即将上线,以及其ZK矿池的开放在即,各大社区中关于Cysic的讨论渐趋热烈,本文旨在让更多人了解Cysic的产品原理与业务模式,并对ZK硬件加速原理进行简单科普。在下文中,我们将对Cysic的相关知识进行简要概括,帮助更多人降低理解门槛。

从工作流程理解ZK证明系统

ZK证明系统其实是很复杂的,但如果要对其大体构造有个简单理解,可以从职能和工作流程角度进行分解。对于一个把普通计算ZK化的系统而言,其核心流程概括如下:

首先我们要通过前端与ZK系统交互,向其提交待证明的内容,前端会将这些内容进行格式转换,便于被ZK证明系统处理。之后,系统会通过特定的证明系统或框架(如Halo2、Plonk等)生成ZK Proof。这个过程可以细分为以下几步:1. 问题设置:首先我们要确定待证明的内容是什么。比如,证明者Prover声明自己掌握/知道某样数据,“我知道方程式F(x)=w的一个解N”,但他又不想让人看到N的数值。2.算术化与CSP:证明者提交待证明的内容后,系统会建立专门的数学模型/程序,等价的表达出待证明内容,然后进行格式转换,便于被证明系统处理。具体而言,前述声明“我知道方程F(x)=w的一个解N”将从原始的数学等式,转化为逻辑门电路和多项式的形态。

  1. 之后,系统将选择合适的证明系统如Halo、Plonk等,将前面几步生成的内容编译为可用的ZKP程序。证明者使用该ZKP程序生成证明,交由验证者做验证。

像zkEVM等频繁在以太坊二层当中被采用的ZK系统,本质是先将智能合约编译为EVM的底层操作码,然后对每个操作码进行格式转换,转化为逻辑门电路/多项式约束的形式,再交由后端的ZK证明系统做进一步处理。

值得一提的是,目前在区块链中被广泛使用的ZKP技术方案主要是zk-SNARK(零知识简洁非交互式知识论证),而ZK Rollup大多数利用了SNARK的简洁性而非零知识性。简洁性意味着ZKP占用的空间很小,可以把大量的内容压缩到几百个字节,验证成本非常低。这样一来,Prover和Verifier之间的工作量是不对称的,Prover生成ZKP的成本很高,Verifier的验证成本却很低,只要利用好这种不对称性,在“单一Prover,多个Verifier”的场景下采用ZK,可以将整体的成本集中在Prover侧,极大程度降低Verifier的成本,这种模式对去中心化验证极其有利,以太坊二层的思路便是如此。但这种将验证成本转嫁到ZK生成端的模式并不是银弹,对于ZK Rollup项目方而言,生成ZKP付出的高昂成本最终必然会再度转嫁到UX和手续费上,这并不利于ZK Rollup的长期发展。纵使ZK在去信任和去中心化验证的场景下有很大的用武之地,但受限于生成时间上的瓶颈,无论是zkEVM还是zkVM或是ZK Rollup和ZK桥,目前都不具备大规模采用的经济基础。对此,以Cysic、Ingonyama、Irreducible等为代表的ZK加速项目应运而生,分别从不同的方向尝试降低ZKP的生成成本。下文中,我们将从技术角度简要介绍ZKP生成的主要开销与加速方式,以及为何Cysic在ZK加速赛道具备巨大的潜力。

运算开销:MSM和NTT

很多人都知道,ZKP的Prover生成证明的时间开销非常的大。在ZK-­SNARK协议中经常会出现这样一种情况:Ver­i­fier只需要一秒就可以验证证明,但是证明的生成可能需要花费Prover半天甚至一天的时间。为了高效的使用ZKP证明计算,有必要要将计算格式从经典程序转换为ZK友好。目前有两种方法可以做到这一点:一种是使用一些证明系统框架编写电路,例如Halo2;另一种是使用领域特定语言 (DSL),如Cairo或Circom,将计算转换为中间表达形式,以便后续提交给证明系统。证明系统会根据编写的电路或DSL编译的中间表达形式来生成ZK证明。程序操作越复杂,生成证明所需的时间就越长。另外,某些操作在本质上对ZK不友好,实现它们需要额外的工作。例如,SHA或Keccak哈希函数是ZKP不友好的,使用这些函数将导致证明生成时间延长。而即便在经典计算机上执行成本很低的操作,也可能是ZKP不友好的。

而抛开ZK不友好的计算任务不说,虽然ZK证明生成过程可能因选用的证明系统而异,但其瓶颈本质上都是相似的。在ZK证明的生成中,有两种计算任务最消耗计算资源:MSM(Multi-Scalar Multiplication)和NTT(Number Theoretic Transform)。这两种计算任务可以占到证明生成时间的 80-95%,具体取决于 ZKP 的承诺方案和具体实现。MSM主要处理椭圆曲线上的多标量乘法,而NTT则是在有限域上的FFT(快速傅立叶变换),用于加速处理多项式乘法。使用不同的方案组合将带来不同的FFT/MSM负载比例。以Stark为示例,其PCS (Polynomial Commitment Scheme,多项式承诺方案)使用的是FRI,一种基于哈希的承诺,而不是像KZG或IPA所使用的椭圆曲线,因此完全没有MSM的计算。表中越靠上意味着需要越多的FFT运算,越靠下则需要越多的MSM运算。

优化方案

由于MSM运算涉及可预测的内存访问,虽可以大量并行化,但需要消耗大量的内存资源。另外,MSM还存在可扩展性挑战,即使并行化的前提下,也可能很慢,因此,虽然MSM有可能在硬件上加速,但它们需要巨大的内存和并行计算资源。

NTT往往涉及随机内存访问,这使得它们对硬件不友好,而且在分布式基础设施上难以处理,这是因为NTT随机访问的特点,其如果在分布式环境下运行,不可避免地要访问其他节点的数据,一旦涉及到网络交互,性能就会大大下降。

因此,存储数据的访问和数据移动成为一个主要的瓶颈,限制了NTT运算并行化的能力,加速 NTT的大部分工作,都集中在管理计算如何与存储器交互上。

其实,解决MSM和NTT效率瓶颈最简单的方法,是彻底消除这些操作。一些新提出的算法,比如Hyperplonk,对Plonk进行了修改,消除了NTT操作。这使得Hyperplonk更易于加速,但引入了新的瓶颈;再如计算成本较高的sumcheck协议。还有STARK算法, 它不需要MSM,但其FRI协议引入了大量哈希计算。

ZK硬件加速与Cysic的终极目标

尽管软件和算法层面的优化非常重要且具有价值,但存在明显的局限性。为了充分优化ZKP的生成效率,必须使用硬件加速,这就像ASIC和GPU最终称霸BTC和ETH挖矿市场。

那么问题是:加速ZKP生成的最佳硬件是什么?目前有多种硬件可以实现ZK加速,如GPU、FPGA或ASIC,当然他们各有优劣.

我们可以对比一下这几种硬件:

首先我们通过一个简单的例子来说明它们在开发层面的区别。比如,现在我们要实现一个简单的并行乘法:

  • 在GPU上,利用CUDA SDK提供的API,我们可以像写原生代码一样开发,从而获得并行计算的能力;
  • 在FPGA上,我们需要重新学习硬件描述语言,使用这种语言来控制硬件级别的连接,以实现并行算法;
  • 在ASIC上,芯片设计阶段硬件层面便直接固定好晶体管的连接排布,之后无法再进行修改。

这几种方案各有优劣,适用在ZK赛道的不同发展阶段。而Cysic致力于成为ZK硬件加速的终极解决方案,其分步战略为:

  1. 基于GPU开发SDK为ZK应用提供解决方案,并整合全网GPU资源;
  2. 利用FPGA的灵活性和各项平衡的特点,快速实现定制化的ZK硬件加速。
  3. 自主研发基于ASIC的ZK Depin硬件
  4. 而Cysic Network则将以SAAS平台/矿池的身份,整合ZK Depin与GPU的所有算力,为整个ZK行业提供算力与验证解决方案

下面让我们通过对多个细分赛道展开解读,来充分理解ZK加速方案的细分差异与Cysic的发展思路。ZK矿池与SaaS平台:Cysic Network其实,无论是Scroll还是Polygon zkEVM等知名ZK Rollup,都曾在其路线图中明确提出了“去中心化Prover”的概念,而这实际上就是构建ZK矿池。这种市场化的方式可以让ZK Rollup项目方减轻包袱,激励矿工和矿池运营方不断对ZK加速方案进行优化。而在Cysic的路线图中,已明确提出名为Cysic Network的ZK矿池与SaaS平台计划。它不但会集成Cysic自有算力,还将通过挖矿激励的方式吸收第三方算力资源,包括闲散的GPU和普通用户手上的zk DePIN设备。其整个验证工作流示意图如下:

  1. zk项目方将证明生成任务提交给代理人(Agent),后者的工作是将证明任务转发至验证网络。这些Agent在一开始将由Cysic官方运行,后续将引入资产质押,让任何人都能成为Agent;
  2. Prover接受证明任务,并使用硬件生成ZK证明,证明者需要质押Token来参与证明任务的承包,完成证明任务后将获得奖励;
  3. 验证者委员会负责检查Prover生成证明的有效性并进行投票,当达到一定的票数后,证明将被认为有效。验证者通过质押Token加入委员会,参与投票并获得奖励,这个过程可以结合EigenLayer的AVS概念,复用现有的Restaking设施。

其详细交互过程如下:

其实上面的流程中有个点,无论是资产质押还是激励分发,以及计算任务的提交等动作都需要依赖于某个专属平台,这就需要有区块链作为专用设施。为此Cysic Network搭建了一条专属公链,采用了一种独特的共识算法,称为 Proof of Compute (PoC),其基本原理是基于VRF函数和Prover的历史表现,比如设备的可用性、提交证明次数、Proof正确率等等,来选择出块人负责出块(注:它这里的区块应该是用于记录各台设备的信息和分发Token激励)。当然,在ZK矿池和SaaS平台之外,Cysic基于不同硬件的ZK加速方案上都进行了大量布局。接下来让我们分别了解其在GPU、FPGA和ASIC三条路线上的成果。

GPU、FPGA和ASIC

ZK硬件加速的核心在于将一些关键运算尽可能并行化。而从硬件的功能特性来看,CPU为了实现最大的灵活和通用,芯片中很大一部分面积都用来提供控制功能和各级缓存,这导致其并行计算能力较弱。在GPU当中,用作运算的芯片面积比例大大提高,这使其能够支持大规模的并行处理。现在GPU已经非常普及,例如Nvidia Cuda等库可以帮助开发人员利用GPU的并行性,而无需了解底层硬件,通过CUDA SDK可以封装CUDA ZK库加速MSM和NTT运算。而FPGA则由大量小型处理单元组成的阵列,要对FPGA进行编程,需使用专门的硬件描述语言,再将其编译为晶体管电路组合。所以FPGA实际上是直接用晶体管电路实现特定算法,而不需要经过指令系统的编译。这种定制性和灵活性要远胜GPU。目前FPGA价格大约仅是GPU的三分之一,且能效可以比GPU高出十倍以上。这种显著的能效优势部分原因在于GPU需要连接到主机设备,而主机设备通常消耗大量电力。可以说,FPGA可以在不增加能耗的情况下,增加更多的运算模块来应对MSM和NTT的需求。这使得FPGA特别适合计算密集型、需要高数据吞吐量和低响应时间的ZK证明场景。然而,FPGA最大的问题是鲜少有开发人员具备编程经验,对于ZK项目方而言,组织一个既拥有密码学专业知识、同时拥有FPGA工程专业知识的团队极其困难。而ASIC则相当于完全用硬件来实现某个程序,一旦设计完毕,硬件就无法更改,相应地,ASIC能够执行的程序自然也无法更改,只能用作特定任务。上面讲述的FPGA在MSM和NTT方面的硬件加速优点,ASIC同样也具备。而由于是专用电路设计,ASIC在所有方案里是效能最高、能耗最小的。对于目前主流的ZK Circuit,Cysic希望证明时间能实现1 - 5 秒的速度,想要达到这个目标,只有ASIC能够实现。虽然这些优点听起来非常吸引人,但ZK技术正在快速发展,而ASIC的设计和生产周期通常需要1-2年,并且成本高达1000-2000万美元。因此,必须要等到ZK技术足够稳定,才能投入大规模的生产,以避免生产出的芯片很快就过时。对此,在GPU和FPGA、ASIC这三个领域,Cysic都做了充分布局;在GPU加速方案层面,随着各种新型ZK证明系统的诞生,Cysic基于自研CUDA加速SDK对它们进行了适配,并通过聚拢社区资源的方式,在Cysic的GPU算力网络中链接了数十万张顶级算力显卡,同时Cysic CUDA SDK比最新的开源框架提速了50%-80%甚至以上。在FPGA上,Cysic通过自研方案,完成了全球最快的MSM、NTT、Poseidon Merkle tree等模块的实现,覆盖了ZK计算最主要的部分,而且该方案经过了多个顶级ZK项目的原型验证。Cysic自研的SolarMSM可以在0.195秒内完成2^30规模的MSM计算,而SolarNTT能在0.218秒内完成2^30规模的NTT计算,是目前所有公开的FPGA硬件加速结果中性能最高的。

而在ASIC领域,虽然距离ZK ASIC的大规模应用还有一定距离,但Cysic已经提前布局了这一赛道,并推出了自主研发的ZK DePIN芯片和设备。为了吸引C端用户,并满足不同ZK项目方对性能和成本的要求,Cysic将推出两款ZK硬件产品:ZK Air和ZK Pro。

ZK Air的大小与充电宝、笔记本电脑电源相近,普通用户可以直接通过Type-C接口将其连接到笔记本、iPad甚至手机上,为特定ZK项目提供算力支持并获得奖励。目前ZK Air算力仍然超越消费级显卡,可以加速小规模的ZK证明生成任务。ZK Pro则类似于传统矿机,算力达到了多块顶级消费级显卡互联GPU服务器的效果,能够大幅加速ZK证明的生成,适用于大型ZK项目,如ZK-Rollup和ZKML(Zero knowledge machine learning)。通过这两款设备,Cysic最终将构建一个稳定可靠的ZK-DePIN网络。目前这两款设备还在研发中,预计于2025年上市。此外,通过Cysic Network,C端用户能够以非常低的门槛加入到zk硬件加速市场,加上ZK项目方对算力的大量需求,这可能使市场再次掀起一波如同比特币挖矿一样的热潮,ZK计算领域的市场规模可能将再次迎来爆发式增长。

reference

https://medium.com/amber-group/need-for-speed-zero-knowledge-1e29d4a82fcdhttps://figmentcapital.medium.com/accelerating-zero-knowledge-proofs-cfc806de611b

声明:

  1. 本文转载自[极客 Web3],著作权归属原作者[Nickqiao & 雾月],如对转载有异议,请联系 Gate Learn团队,团队会根据相关流程尽速处理。

  2. 免责声明:本文所表达的观点和意见仅代表作者个人观点,不构成任何投资建议。

  3. 文章其他语言版本由Gate Learn团队翻译, 在未提及Gate.io的情况下不得复制、传播或抄袭经翻译文章。

即刻开始交易
注册并交易即可获得
$100
和价值
$5500
理财体验金奖励!
It seems that you are attempting to access our services from a Restricted Location where Gate.io is unable to provide services. We apologize for any inconvenience this may cause. Currently, the Restricted Locations include but not limited to: the United States of America, Canada, Cambodia, Thailand, Cuba, Iran, North Korea and so on. For more information regarding the Restricted Locations, please refer to the User Agreement. Should you have any other questions, please contact our Customer Support Team.