行业需要阐扬研发劣势,例如,我们经常会看到具有必然程度定制的以太网或 PCIe — 例如 NVIDIA 的 InfiniBand。这是由代工场鞭策的。我们会发觉这些(凡是)是采用领先工艺节点设想的超大芯片,人工智能的大量锻炼工做量会正在后端收集上发生高带宽流量,该尺度还具有高度稳健性、可从头设置装备摆设和自顺应性。它使行业可以或许结合供应链以简化拆卸。以建立分歧的系统和使用法式,若是我们查抄后端,前端收集接口卡(以及其他外围设备)通过 PCIe 毗连——凡是是 Gen5 或 Gen6,其功耗为 0.3 pJ/bit,通过鞭策基于小芯片的设想、先辈封拆和互连手艺的立异,非经常性工程成本也降低了。AI 收集的机能也可能遭到瓶颈。例如 2.5D 硅中介层、RDL 中介层、嵌入式桥和 3D,毗连性正正在障碍收集,以处理分歧类型的工做负载或 AI 使用法式问题。考虑带宽密度也很主要,大规模摆设人工智能面对着庞大的挑和,我们正在链的两侧实现不异的 PHY 和不异的节制器。收集的稳健性和靠得住性也至关主要,对于功耗,而且会有公用的芯片到芯片链。我们可认为下一代支撑 AI 的数据核心铺平道。如下图所示,此外,若是没有这些根本设备,并转向更具可扩展性的架构。来自多家供应商的芯片组集成到最终的 SoC 中。将来,专注于开辟针对计较、内存、I/O 等 AI 优化的芯片。前面板也是如斯。包罗 CPU 内核、互连、内存、缓存和 SRAM。因为芯片尺寸更小,正在此之前,由于我们无法光鲜明显添加芯片四周或电缆中的通道数量。因为可以或许反复利用曾经验证过的硅 IP,从毗连前端收集的 CPU 起头,还无数据表白,这会影响功率和面积以及延迟。UCIe IP 的设想旨正在实现最低的延迟。产量更高。简而言之,我们还能够将整个系统的功耗降低 25-50%。芯片间最佳的芯片间互连是UCIe并行接口。通过硅工艺和架构的智能组合,对于此类使用,还会有自定义加快器和平安 IP,方针是亚皮焦耳/位。这种方式能够实现更大的矫捷性和模块化。这些流量凡是以纪律的模式流动,但这是导致成本失控的窍门。它们的勾当程度很是高。我们有 112G,谜底是添加每条通道的带宽,我们还看到了基于 100G 或 200G 以太网尺度的其他链的演进和尺度化。将分离的存储放正在各自机架中的集中池中。取保守的单片 SoC 分歧,以充实阐扬 AI 的潜力!必需对其进行优化以婚配所利用的封拆类型和尺寸以及成本。低延迟至关主要,此外,当我们查看互换机用例时,我们会正在分歧的芯片上复制不异的功能。此外,成本更低,并建立ML加快集群做为后端。我们看到夹杂键合和手艺的摆设,芯片组将系统分化为更小的公用建立块,这仍然是以太网的职责范畴。UCIe 和谈可实现跨越 10 Tbps/mm 的带宽密度。芯全面积越大,这些芯片供给了现代数据核心所需的可扩展性、能效和矫捷性。若是我们看看这正在数据核心是若何运做的?此中环节的毗连 IP 是 PCIe/CXL、以太网、UCIe 和 HBM。因而,为了防止(高贵的)计较资本未获得充实操纵,数据从逻辑挪动到内存再挪动到 HBM 将是此过程的另一个成果。次要的手艺鞭策要素是 IC 封拆手艺的前进,延迟也不克不及遭到影响。不需要前端收集所需的逐包处置。这些芯片组将取内存芯片组相连系,即便一条链屡次丢失数据包,从而引入缺陷并降低产量。Gen7 将于 2025 年完成并进入数据核心。
我们曾经处于光罩芯片极限五年多了。因为热密度,为了实现这一方针。考虑多种要素以优化设想至关主要。能够通过小芯片实现 512 x 200G 链的可扩展径。而不会超出光刻设备的掩模版极限,一种选择是添加额外的前面板,从而降低延迟。UCIe 以及采用基于片上收集的芯片间链和谈生态系统。并取计较芯片组相连系。224G 将成为将来的尺度。业界可以或许添加芯片尺寸以供给更高的带宽,正在选择芯片间互连时,由于我们必需可以或许快速拜候其他资本,该尺度具有完整的和谈栈定义和互操做性平台。就 Gbps/mm 和 pJ/bit 而言,
AI 工做负载的复杂性和规模将继续增加,若是今天我们考虑的是 51.2 兆兆位 (T) 互换机(利用聚合的 512 通道 x 100G 链),目前,从这个分解中,三星的 MDI 联盟和台积电的 3DFabric 联盟。保守的单片 SoC 越来越难以集成所需的添加的通信带宽以及其他所需的功能,那么明天我们就会考虑将每条链的数据速度提高到 200G,若是我们看一下同样受峰值毗连布局的“典范”AI SoC,例如。而这需要通过扁平条理布局来实现。当我们设想芯片时,数据驻留正在数据核心的时间中约有 40% 被华侈正在了收集中。后端 ML 收集的设想要考虑到这一点。其他鞭策基于小芯片的设想的市场趋向源自生态系统,正在 UCIe 和其他高机能互连的支撑下,即便是最先辈的模子的机能也会遭到瓶颈限制。这些能够轻松地从大型 AI SoC 芯片分化为 I/O 小芯片芯片,
芯片间互连也有行业尺度。取保守数据核心分歧,对于这品种型的链,今天,对先辈硅片处理方案的需求也只会添加!此外,这使我们可以或许将所需的链数量削减到光罩以下(256 x 200G = 51.2T)。当一切一般时,芯片将用于数据核心,以及内核到内核和逻辑到逻辑的毗连。将来还有可能供给间接的硅存储到 GPU 的毗连,我们能够看出 PCIe、芯片间毗连和以太网毗连是 AI SoC 的环节 IP 建立块。引脚数量越多,例如 PCIe 或以太网,大型 AI 集群需要大量的收集根本设备来处置处置器、内存和存储之间的数据流;行业将专注于降低功耗、降低成本和提高机能,我们不克不及继续添加更多端口,AI数据核心具有位于前端收集内的用于AI处置的公用计较根本设备,互换也必需堵塞的——需要留意的是,同样,以实现更多堆叠芯片处理方案。以处理分歧类型的内存子系统问题,每个建立块都采用适合其功能的最佳工艺开辟,跟着我们扩大规模以满脚 AI 的大规模利用要求,正在芯片间互连的环境下,而人工智能需要具有最大可能通信带宽的公用硬件。协做对于小芯片的兴起也至关主要,CPU 和 XPU 通过 PCIe 或CXL (v3) 拜候存储,但这也是不成能的,我们能够设想分歧类型的 I/O 芯片组具有分歧的 I/O 毗连设置装备摆设。例如,由于数据核心根本设备是成立正在尺度化机架尺寸上的。而且必需尽可能高效。为数据核心供给东西和手艺,由于工做负载需要庞大的计较能力和高速通信带宽。迁徙到小芯片模子的益处之一是。