微组装工艺

Chiplet封装

时间:2023-11-20 14:02 作者:小编 分享到:

 摩尔定律——多种解释(四川半导体微组装设备公司

摩尔定律是戈登摩尔的观察结果,即计算机芯片中的晶体管数量每两年增加一倍。这条定律经常被许多人误解。

晶体管密度——工艺节点中每平方毫米的芯片面积可以封装多少个晶体管——只是该方程的一小部分。即使每个新工艺节点的晶体管密度加倍,如果在新工艺节点中获得特定性能的成本和功耗高于当前节点,那么过渡到该节点就没有意义。
摩尔对每个新工艺节点的观察都有一个固有的假设,即:
除了晶体管密度的提高之外,制造工艺也得到了改进,使得晶圆的生产成本保持不变。
随着晶体管工作电压的提高,每个工艺节点的功率密度(芯片单位面积的功率)都会降低。
因此,对于给定的吞吐量,新工艺节点中芯片的成本和功耗将显著降低,并且过渡到新节点以获得好处是有意义的。
引入登纳德缩放是为了补充摩尔定律。登纳德缩放假设对于每个新工艺节点,我们可以将晶体管的工作电压 (VDD) 缩放 0.7 倍,并将尺寸分别缩放 0.7 倍。这导致面积减少 50% (0.7 x 0.7),栅极电容减少约 30%。
因此,对于相同的功率密度,晶体管的时钟频率可以提高 40% 。

结合摩尔定律和登纳德扩展意味着,即使没有任何架构或微架构创新以及额外的处理器内核,只需在下一个节点中重新调整芯片,CPU 就可以在总功耗相同的情况下以 50% 的面积实现 40% 的性能提升。

第一个拐点——晶体管性能下降



blob.png

                                                                                                                                                                    图 1 :晶体管性能下降的第一个拐点

登纳德缩放法一直持续到 2000 年代中期。由于 CMOS 器件中的短沟道效应,晶体管性能开始下降。当晶体管的沟道长度减小到器件的物理特性开始偏离理论晶体管模型中假设的理想行为时,短沟道效应就变得相关。(四川成都微组装设备自动化
结果是晶体管需要更高的工作电压 (VDD) 才能在开/关状态之间切换,并且每个工艺节点的典型 0.7 倍电压缩放在 130 nm 工艺节点之后无法跟上。它缩小到 0.95-0.98 倍缩放。较高 VDD 下漏电流的增加导致功耗进一步增加。换句话说,功率密度随着新工艺节点的增加而增加,而晶体管的时钟频率只能提高 10-12%,才能保持相同的功率密度。
随着晶体管性能的降低,单线程性能的提升速度减慢。需要更深的管道和更多的架构创新来提高单线程性能。CPU 供应商还开始在芯片内集成更多内核,以使芯片的整体性能提高一倍/三倍。这被称为片上系统(SOC)时代。
在网络方面,我们看到所有数据包处理、排队和调度功能集成在同一芯片和多片架构中。

到 2012 年,GPU 等特定领域加速器开始获得更大的发展动力。在网络方面,通用网络处理器让位于固定管道数据包处理架构,该架构对大部分 L2/L3 处理进行硬编码。此外,为了减少访问外部存储器所涉及的延迟和功耗,一些网络公司为其高端交换机采用了 VOQ 架构。

CMOS > FinFET > GAA

随着CMOS器件性能的下降,业界在2012-2015年左右迅速采用FinFET晶体管技术。英特尔于 2011 年通过其 22 纳米工艺节点将 FinFET 引入主流半导体制造,但没有取得太大成功。台积电在 16nm 工艺节点推出 FinFET。 (四川成都半导体微组装设备厂家

blob.png

                                                                                                                                                                         图 2 :晶体管技术。来源:三星

与 CMOS 晶体管不同,FinFET 是一种具有凸起鳍状结构的非平面或 3D 晶体管。凭借栅极控制多侧沟道的能力,这些晶体管可以缩小到比 CMOS 器件更低的尺寸,而不会产生短沟道效应。因此,16 纳米 FinFET 晶体管在特定时钟速度下的功耗提高了 60%。FinFET 晶体管还使晶体管和 SRAM 密度提高了 2-3 倍,直到 7nm 节点。此后,晶体管密度提高了 1.4-1.65 倍,而 SRAM 停止了缩放。
FinFET 是更复杂的器件,难以在每个节点上制造和扩展,并且会产生大量的研发成本。因此,节点全面扩容的周期从 18 个月延长到 2.5 年甚至更长。
GAAFET(英特尔也称为ribbonFET)的Gate-All-Around 是对FinFET 的进一步改进。与 FinFET 的栅极围绕晶体管的三个侧面不同,在 GAA 中,栅极材料从各个侧面围绕沟道,确保对沟道进行更好的静电控制,从而提高了 FinFET 的性能并进一步降低了漏电流。这种 3D 晶体管技术有两种形式。
纳米线:晶体管的沟道形状像一条线,栅极缠绕在这条线周围。
纳米片:具有扁平带状或片状通道结构。由于纳米线的沟道宽度较高,因此可以实现更高的驱动电流和更高的性能。
三星将于 2022 年通过 GAA 推出 3nm 工艺。台积电/英特尔计划将这项新技术用于 2nm 工艺节点。

blob.png

                                                                    图 3:晶体管密度随着每个工艺节点不断增加。高性能晶体管的密度通常比上面所示的通用(高密度)晶体管低。来源:维基芯片

第二个拐点——2.5D融合

用作 GPU/CPU 和网络设备外部存储器的 DRAM 使用与 ASIC 中的晶体管所使用的不同的处理节点。很难同时扩展 DRAM 的性能和密度,同时保持较低的成本和功耗。由于 CPU 供应商对容量的需求增加,DRAM 供应商以容量而非性能为代价。由板上 PCB 走线主导的 DRAM 延迟也没有改善。DRAM 与逻辑性能之间不断扩大的差距通常被称为“内存墙”。

GPU 是最先受到内存墙影响的,因为它们的工作负载(例如图形渲染)本质上是高度并行的,并且分布在多个核心上,并且较长的延迟会影响图形质量。
大约在这个时候(2011 年),高带宽内存 (HBM) 被开发出来,以满足 GPU 对带宽日益增长的需求。与传统 DDR 存储器不同,HBM 使用硅通孔 (TSV) 和微凸块垂直堆叠多个 DRAM 芯片。HBM 通过封装基板内的硅中介层连接到核心芯片。与传统 DDR 解决方案相比,这允许更宽的内存接口,因此具有更高的带宽,同时降低功耗和外形尺寸。HBM 集成封装通常称为 2.5D 封装。 

blob.png

                                                                                                                                                          图 4:HBM 插图。模具高度未按比例绘制。

虽然 HBM 芯片的厚度(高度)似乎比上图中的核心/逻辑芯片大得多,但该图仅用于说明目的,并未按比例绘制。逻辑芯片通常要厚得多。将芯片模制到中介层晶圆上后,整个结构会经过研磨工艺(背面研磨)以使表面对齐。这是机械稳定性和将热界面材料 (TIM) 放置在芯片上以实现高效散热所必需的。
台积电通过其晶圆上芯片(CoWoS)封装技术提供 2.5D 封装。请注意,连接 HBM 芯片和基础/ASIC 芯片与硅中介层之间的微凸块通常具有 25-40um 的节距(凸块中心点之间的距离),这允许高密度连接。中介层和封装基板之间的 C4 凸块通常具有 100-200um 间距,具体取决于所使用的技术。
AMD 于 2015 年在其 Fiji GPU 架构中率先采用 HBM。英伟达立即紧随其后,于 2016 年推出了 Tesla 系列 GPU。网络芯片从 2018 年起遵循该套件,HBM 取代了用于数据包缓冲和数据包缓冲的外部 DDR 内存。数据结构。
从那时起,HBM 在 GPU、高端网络交换机和数据中心服务器芯片中得到了更广泛的采用。HBM 和 PHY 的生态系统已经扩展,多家供应商都在开发符合 JEDEC 标准的产品。多年来,HBM 性能和容量也有所提高,如下表所示。

blob.png

                                                                                                                                                                     多年来 HBM 性能和容量的增长。

请注意,Intel、AMD 和 Apple 的桌面 CPU 继续使用 DDR 内存变体,因为 HBM 部件和 2.5D 封装价格昂贵,而且成本并不能证明带宽增益的合理性。此外,主板上的 DDR 内存 (DIMM) 允许用户根据需要升级或更换内存,并以低得多的价格提供比 HBM 设备更高的内存容量。如果 CPU 使用封装 HBM 作为其主内存,则这种用户驱动的可升级性将会丢失。PC 生态系统(尤其是基于 x86 的)是建立在数十年的遗留基础设施之上的。将 CPU 过渡到新的内存标准将广泛影响 PC 市场,包括主板、兼容性、软件等。

多芯片模块 (MCM) 时代

MCM 背后的理念

随着工艺节点的缩小,制造变得更加复杂和昂贵,导致每平方毫米硅的成本更高。芯片成本并不与芯片面积成线性比例。由于产量(晶圆中良好芯片的数量)降低,芯片面积增加一倍,芯片成本增加一倍以上。
与其在大型芯片中封装更多核心,不如开发中型 CPU 核心并将它们连接在封装内部,以在封装级别获得更高的核心密度,这可能更经济。这些内部具有多个逻辑芯片的封装称为多芯片模块 (MCM)。多芯片模块内的芯片通常称为小芯片。
并非所有计算应用程序都需要高带宽 CPU 内核。通过使用中型 CPU 小芯片,CPU 供应商可以开发具有不同数量 CPU 内核的不同封装版本。
仅当芯片之间的互连速度足够快而不会降低芯片的性能时,这种小芯片架构才有效。2015年使用硅中介层的HBM集成已经证明了可以在硅中介层中路由高速信号。
然而,硅中介层是使用半导体器件制造工艺制造的,并且受到与逻辑芯片相同的掩模版尺寸(858平方毫米)的限制,并且需要掩模版缝合以使其大于858平方毫米。这个工艺当时还不成熟,即使没有任何缝合,也会导致昂贵的中介层。在 2015 年的时间范围内,使用中介层构建小芯片对于 CPU 来说在经济上没有意义 — 特别是如果它们不需要 HBM!
AMD 在 2D MCM 领域处于领先地位
AMD 在其第一代“Zen”EPYC 处理器(2017 年)中引入了小芯片架构,使用有机基板将封装中的四个 CPU 互连。有机基板是高质量 PCB,可实现更精细的走线并提供更好的热性能和机械性能。14 纳米节点中的每个 CPU 约为 200 平方毫米。

blob.png

                                                                                                                                                          图 5:具有四个 CPU 芯片的 MCM。

高速 SerDes 用作小芯片之间通信的物理介质。AMD 开发了专有的 Infinity Fabric 协议。该协议用于 CPU 内的处理内核、封装中的 CPU 小芯片以及两个不同插槽上的 MCM 之间的通信。在所有内核到内核通信中使用相同的协议使得小芯片架构更容易扩展到四个 CPU 之外。

随着 2019 年推出采用“Zen2”架构的桌面/服务器 CPU,AMD 继续在有机基板上进行芯片的异构集成。包含 DDR 内存控制器、PCIe 接口和其他 IO 功能的 IO 小芯片采用 14 纳米工艺(约 400 平方毫米芯片),包含处理器内核的核心小芯片采用 7 纳米工艺节点(约 75 平方毫米芯片) 。这是小芯片架构的优势之一——优化每个小芯片的工艺节点,以获得更好的功耗、性能和成本。 

blob.png

                                                                                              图 6:14 纳米工艺中具有 IO 芯片(带有 DDR 控制器、PCIE 接口等)的 Zen2 MCM 和 7 纳米工艺节点中的 CPU 内核的图示。

二十多年来,英特尔一直在为其处理器核心使用有机基板的 MCM 进行修补,但并没有在所有 x86 系列中一致使用它们,因为他们优先考虑功耗/性能而不是成本。与将所有这些核心封装在单片芯片中相比,CPU 之间具有较长走线的 MCM 显著增加了核心间通信的延迟。

英特尔专注于先进封装

英特尔专注于开发先进封装,以实现高密度小芯片互连,同时降低延迟和功耗。在其开发的众多技术中,“Foveros”和嵌入式多芯片互连桥(EMIB)最为突出。

EMIB 允许通过硅桥进行高带宽小芯片连接。第一个使用 EMIB 的英特尔产品是 Stratix 10 FPGA。
EMIB 没有使用大型硅中介层,而是采用小型硅桥。这些桥包含高速互连,可以直接嵌入封装的有机基板中。 

blob.png

                                                                                                                                                                          图 7:用于 HBM 和核心连接的 EMIB。

EMIB 通过非常小的凸点间距(最新 EMIB 中为 10-20um)提供高互连密度,从而允许芯片之间具有更高的带宽,并且由于走线长度较短(1-2mm),因此比使用有机基板具有更低的功耗。它类似于微型硅中介层,仅覆盖小芯片之间需要连接的区域。
EMIB 可用作核心小芯片和 HBM 之间或任意两个核心小芯片之间的互连。此外,EMIB 并不妨碍我们在同一封装中使用有机基板进行某些互连。因此,EMIB 提供了全硅中介层和有机基板互连之间的中间立场,提供高密度和高性能。它无需缝合 3-4x 掩模版大小的硅中介层来覆盖更大的芯片。TSMC 还通过其 CoWoS-L 产品提供与 EMIB 类似的技术。
虽然 AMD 在其多 CPU 封装中使用的现代有机基板可以提供良好的互连密度,但它们通常无法与 EMIB 或硅中介层的超细间距相匹配。AMD 继续在其 Zen3 和 Zen4 处理器系列中使用它们。
英特尔使用 EMIB 技术将其第 8 代 CPU 核心与 AMD Radeon GPU 封装在同一封装中。EMIB 用作 GPU 和 HBM2 之间的互连。当时,Intel 和 AMD 之间的合作意义重大,而使用 EMIB 是实现这种集成的关键。 

blob.png

                                                                                                                                     图 8:基础芯片、计算芯片和叠层封装 (POP) DRAM 之间的 3D 堆叠(Foveros 插图)。

英特尔开发了 Foveros 技术来进行小芯片的 3D 堆叠。第一个版本使用微凸块面对面粘合芯片。Lakefield 处理器 (2020) 使用 Foveros 3D 计算芯片和基础芯片堆叠,顶部有 LPDDR4 内存封装。然而,英特尔在推出后一年内就停产了该系列处理器,因为它无法与该细分市场的性价比竞争。
2022 年推出的 Meteor Lake 处理器采用小芯片架构,其中 CPU、GPU、SOC 和 IO 小芯片排列在使用更高版本的 Foveros 技术的大型硅中介层上。

Apple 最近发布了最新的桌面 CPU 芯片 (M1 ultra),该芯片使用大型硅中介层来背靠背连接大型 M1 Max 芯片(每个芯片约 500 平方毫米)。它使用专有的封装技术通过硅中介层在芯片之间连接超过 10,000 个信号,在芯片之间提供约 20Tbps 的带宽。

先进的 3D 封装

尽管 SRAM 随着每个工艺节点的缩小而缩小,但其缩放比例无法与晶体管缩放相比,并且与逻辑门相比,它们在密度和性能改进方面开始落后。跨多个内核共享的统一大型 L3 缓存有助于抵消 SRAM 扩展问题,并允许在单片芯片中更多地集成内核。同样,在网络方面,统一的数据包缓冲区和数据结构在多个 PFE 之间共享,并且数据包缓冲区进一步减少,有利于更好的端到端拥塞机制。

blob.png

                                                                                                                            图 9:TSMC 的 SRAM 缩放在 3nm 工艺节点停止。与 5nm 相比,密度没有提高。来源:维基芯片

随着服务器性能需求的增加以及更多核心 (16-32) 被装入芯片中,AMD 看到了对更大 L3 缓存的需求,这些缓存可以作为可选功能以高价提供。它使用台积电的集成芯片硅 (SoIC) 工艺,在使用 Zen3 架构 (2020) 的 Ryzen 7 系列桌面服务器的 CPU 芯片顶部额外堆叠 64MB 缓存芯片。

blob.png

                                                                                                                                                        图 10:垂直方向堆叠的小芯片之间的 Cu-Cu 混合键合。

在该技术中,3D V 缓存小芯片通过直接 cu-cu 混合键合到包含处理器内核和 32MB L3 缓存的主核心,如上所示。
与 HBM 中的 DRAM 芯片之间以及 Foveros 中的内核之间使用的微凸块相比,混合键合可提供 15 倍的互连密度和 3 倍的功率效率。当芯片通过微凸块或混合绑定垂直连接时,TSV 充当常规金属互连。不需要 PHY 或 SerDes 来驱动垂直堆叠芯片之间的信号。

英特尔的 Fevoros Direct 与台积电的 SoIC 非常相似。它在芯片之间使用铜-铜键合,允许互连之间的间距更细(<10um)。

先进封装:结合 3D 和 2.5D 堆叠

具有多个 CPU/GPU 和 HBM 接口的数据中心服务器可以受益于垂直方向的 3D 堆叠和先进的 2.5D 堆叠,以实现硅中介层/EMIB 上小芯片和 HBM 之间的互连。

AMD 在其数据中心级服务器中使用了这种方法,该服务器将九个 5nm 芯片(CPU 和 GPU 芯片的混合)放置在四个 6nm 基础芯片之上,其中包括 L3 缓存、HBM PHY 和其他 IO 功能。每个基础芯片都有两个 HBM3 接口。GPU/CPU 芯片采用 TSMC 的 SoIC 3D 堆叠到基础芯片上。基础芯片可以堆叠在大约 3.5 倍掩模版尺寸的大型硅中介层上。芯片间连接可以通过 USR(超短距离 SerDes)进行。所有模具的总功能面积约为 1017 平方毫米。

blob.png

                                                                                                                                                 图 11:采用 HBM 和小芯片 3D 堆叠的先进封装。尺寸不按比例。

英特尔也有类似的数据中心级服务器芯片,将 GPU/CPU/HBM 集成到其 Falcon Shores 系列服务器芯片中。Falcon Shores 系列可能使用英特尔的 EMIB 进行水平堆叠和 Foveros Direct(用于垂直连接)。

先进封装——集成扇出晶圆工艺

Tesla 和 TSMC 已采用晶圆级集成扇出 (INFO) 晶圆上系统 (SOW) 封装。在此 INFO SOW 工艺中,从晶圆上切割出各个芯片。然后,将已知良好的芯片精确地重新定位在载体晶圆或面板上,并在每个芯片周围留出用于扇出接口信号的空间。

然后通过模制来重构载体晶圆。重新分布层(RDL)形成在整个模制区域的顶部。焊球放置在 RDL 的顶部。这消除了对封装基板和 PCB 的需求,并使芯片之间的互连变得高效。

紧凑系统内紧密封装的芯片阵列可实现低延迟芯片间通信、高带宽密度和低阻抗,从而实现更高的功效。Tesla 在这个 INFO SOW 块中封装了 25 个 D1 芯片(每个芯片 645 平方毫米,采用 TSMC 7nm)。总之,这块载体最多可容纳 645 x 25 = 16,125 平方毫米的功能硅。

blob.png

                                                                                                                                                                图 12 :晶圆 (SOW) 技术上的集成扇出 (INFO) 系统。

另一个营地

AMD 和英特尔全力开发基于小芯片的桌面/服务器 CPU 和 GPU 架构,而英伟达则继续开发大型单片 GPU,除了 HBM 的 2.5D 集成。这是有充分理由的。这些小芯片增加了额外的延迟,这会影响消费者游戏 GPU 的性能,而英伟达不愿意妥协。

关于数据中心/HPC GPU,英伟达的芯片已经达到了标线尺寸的极限。约 815 平方毫米的 H100 芯片是低成本 ASIC 封装小芯片设计的良好候选者。但英伟达作为 AI/HPC GPU 的市场领导者,可以控制其系统的定价,并且可能认为没有必要通过引入低成本 ASIC 封装的小芯片来解决任何延迟和软件互操作性问题。他们更专注于在竞争之前提供下一代最高性能的 GPU。许多人愿意为他们的 GPU 支付高价!
有传言称,下一代 Hopper 也可能采用 3nm 工艺节点的单片设计。但是,在 Hopper 之后的一代中,他们可能被迫使用小芯片,因为 SRAM 在最后两个工艺节点中已停止扩展。他们添加到芯片中的流处理器核心越多,所需的 L3 缓存就越大,并且他们可能无法使用单片芯片提供性能改进。

此外,即使他们继续在 2nm 工艺节点中构建光罩大小的芯片,小芯片架构也确实可以帮助他们。例如,他们可以通过使用 NVLink 协议的芯片间互连来连接多个标线大小的芯片,并创建具有多个 GPU 的 ASIC 封装。这将减少 8-GPU 服务器中 ASIC 的数量,并有助于整体降低功耗和延迟。看看英伟达会为其 2nm GPU 采用哪种封装技术和方法将会很有趣。

网络芯片

与英伟达一样,网络芯片供应商继续专注于构建单片芯片有几个原因。

高性能路由器/交换机中的网络芯片在其数据路径模块之间交换大量带宽。在小芯片设计的早期时代,使用有机基板并使用串行接口在小芯片之间路由信号无法满足这些开关的性能和功耗需求。
由于产量较低(与 CPU 同类产品相比),五年前高端交换机还没有在大型硅中介层或 EMIB 结构上构建复杂封装的成本优势。等待技术成熟后再加入潮流是一个谨慎的选择。
高端模块化系统具有非常严格的功率要求,网络芯片无法承受与基于小芯片的设计相关的额外功率开销。
HBM 与 2.5D 封装的集成首先发生,因为片外 DDR 存储器无法跟上 WAN 接口带宽的增加。这些 HBM 托管数据包缓冲区和数据结构。

随着中介层和互连技术的成熟,瞻博网络通过 Express 5 芯片 (2022) 实现了信心的飞跃,并尝试在 2.5D 封装中实现小芯片的异构集成。

Express 5硅

两个基本小芯片被用作构建块,以支持八种不同的 ASIC 封装。

X-Chiplet: 包含两个具有共享缓冲区和数据结构的数据包转发引擎 (PFE)。它的 WAN 接口上有 144 x 112G SerDes,用于接收来自前面板端口的流量。数据包转发引擎具有固定的管道数据包处理。它具有 162 x 112G 极短距离 (XSR) SerDes,用于连接到另一个 X 或 F-chiplet。
F-Chiplet: 这是一种基于单元的结构交换机,具有 16Tbps 交换容量。
瞻博网络使用 XSR(或超短距离 SerDes)与有机基板作为物理互连介质进行芯片间通信。这些 XSR SerDes 的功率和面积是常规长距离 SerDes 的 1/4。在开发时,使用 XSR 是更好的选择,因为中介层技术还不够成熟,无法允许大型中介层包含所有小芯片。

blob.png

                                                                                                                    图 13 :Express 5 芯片中使用的具有硅中介层 (S) 封装的 CoWoS。28.8Tbps 独立交换机 ASIC。

blob.png

                                                                                                                                                                     图 14:两个小芯片和许多封装。

如上面的封装图所示,可以使用两个构建块构建满足不同应用(浅缓冲交换机、深缓冲交换机、线卡 PFE、具有不同吞吐量的交换机等)的封装。使用 Express 5 的系统将于 2024 年初开始发货。
大型 85mm x 85mm 封装配有两个背靠背 X 芯片组,为深度缓冲独立交换机提供最佳功率和性能(28.8Tbps 交换)。使用单片芯片构建如此高吞吐量的 ASIC 是不可能的。
虽然小芯片架构通过 XSR 互连增加了额外的延迟,并且与为上面所示的一些较小封装构建单片芯片相比具有轻微的功率消耗,但如果瞻博网络要为这些封装构建专用单片芯片或尝试重新旋转单片芯片的不同变体,如果模具使用相同的构建模块,那么将它们推向市场会增加大量的 NRE 和开发成本。

总之,选择小芯片方法是在成本/功耗/性能和上市时间要求之间进行仔细权衡。ASIC 的成本除了总功能面积和小芯片的尺寸之外,还很大程度上取决于产量和代工合作伙伴,因此没有一种方法适合所有高端网络芯片供应商。

端网络芯片——未来趋势

除瞻博网络外,没有其他高端网络芯片供应商在其交换机中使用小芯片方法。其中一些 TOR 交换机已经接近标线极限,具有 51.6Tbps 的交换容量。为了在封装内达到 > 100Tbps 的交换容量,在没有 SRAM 扩展和 SerDes 扩展较低的情况下,它们很可能必须依赖小芯片架构。

随着先进封装的不断改进,未来芯片的功能有更多选择。网络芯片可以进一步隔离 IO 芯片内的 IO 和内存控制器(类似于 CPU 芯片)。通过解耦 WAN 接口和内存控制器,核心数据包转发芯片可以位于后续技术节点中,并且 IO 芯片可以针对不同的 WAN 速度和内存技术进行定制。

将全部或部分片上数据包缓冲移至与主 PFE 芯片 3D 堆叠的内存小芯片也有助于增加高端交换机的延迟带宽缓冲和路由规模。

Chiplet — 优点/缺点回顾

总体而言,过渡到基于芯片组的架构应该有助于所有高端 ASIC,其中总功能硅的面积远高于掩模版尺寸。小芯片方法在很多方面都有帮助。

优点
提高产量可以降低 ASIC 的成本。具有更合理尺寸的芯片的封装比具有较大掩模版尺寸的芯片的总体成本更高。
能够在大型封装内封装更多的带宽和容量,而由于芯片的掩模版尺寸限制,这是单片芯片封装不可能实现的。换句话说,小芯片可以是标线尺寸的,并且可以将多个小芯片与先进的封装选项集成在一起,以更低的成本/功耗提供更高的性能/带宽。
允许采用混合搭配的方法来满足不同的应用程序。通过将现有小芯片混合搭配到 ASIC 封装中,可以快速设计新产品并将其推向市场。
不同的小芯片可以在不同的工艺节点中制造。例如,可以为核心使用最新的工艺节点,以获得最佳功率和性能。同时,如果该工艺节点中没有高速 SerDes,则 IO 小芯片可以使用之前的工艺节点。
无需重新设计所有小芯片即可适应最新的内存技术。如果 IO 小芯片包含内存控制器和 HBM PHY,那么随着新内存技术的出现,可以重新设计 IO 小芯片以使用下一代 HBM 来改善功耗/成本和带宽,并延长内存的使用寿命。专用集成电路。
随着小芯片生态系统随着标准接口的扩展,专用功能的小芯片可以从第三方供应商采购。并非所有开发都需要在内部进行。这个概念类似于从供应商处获取用于 SOC 集成的 IP。这为小芯片创建了一个健康的生态系统并促进创新。
缺点
适应大型封装的小芯片架构的主要问题是:
包含物理层 (PHY) 和协议层逻辑的芯片间互连的额外设计开销。这种逻辑增加了额外的面积和功率开销。根据所使用的协议和物理接口,功率可能在 3pJ/位到 0.25pJ/位之间。
与单片设计相比,这些芯片间互连可能会带来额外的延迟,尤其是在数据需要通过多个小芯片传输到达目的地的情况下。对于多种应用程序来说,这种额外的延迟可能是不可能的,包括用于游戏的低延迟交换机和 GPU。
提出一个能够最小化延迟、芯片间互连和封装尺寸的最佳分区具有挑战性。优化核心/IO 芯片布局以优化中介层和封装尺寸也是一项艰巨的任务。
对于某些应用,规模经济可能无法证明小芯片方法的合理性,特别是在产量较低或设计/应用无法从模块化中受益的情况下。
上市时间:软件和固件可能需要修改才能与基于芯片组的硬件配合使用。如果过渡到小芯片会增加软件负担并可能延迟产品发布/发货,那么就需要做出权衡。
散热考虑因素:采用小芯片方法时,根据设计的划分方式,某些小芯片中可能存在热点,这会给散热解决方案带来挑战。对于功耗 >1000W 的大型 ASIC 封装,必须检查无盖封装、更好的 TIM 材料、液体/浸入式冷却等。
更多涉及可测试性和可靠性。硅桥、中介层和混合键会带来额外的故障点。测试这些互连的完整性和性能至关重要。在 PCB 上焊接 ASIC 之前进行系统级封装测试对于确保小芯片按预期交互至关重要。
对于大型封装,存在更多的机械挑战,例如翘曲等。
用于物理设计、热和封装设计的 CAD 工具需要适应技术进步。例如,在具有 Cu-Cu 键合的小芯片 3D 堆叠中,互连线分布在芯片上,并且表现得像缓冲线,从而增加了用于物理设计和时序的 CAD 工具的复杂性。然而,CAD 工具供应商在支持从架构到最终 GDS 的小芯片设计方面取得了快速进展。DAC 2023 上主要 CAD 供应商的主题是支持小芯片生态系统!

尽管业界正在大力解决热和机械挑战,但小芯片架构确实为许多应用提供了成本/功耗/性能之间的更好平衡。

芯片间互连的标准化

通用小芯片互连规范使来自多个供应商和跨不同工艺节点的小芯片能够在封装中共存。它还在供应商之间创造良性竞争并促进创新。

UCIE(Universal Chiplet Interconnect Express)是由英特尔、AMD、台积电等多家半导体行业巨头共同开发的开放标准。该互连标准可用于任何封装(标准 2D 封装或高级 EMIB/CoWoS 等)的小芯片之间。
UCle1.1 规范于 2023 年 8 月发布。UCle 遵循分层方法。物理层指定芯片间 IO 电气特性和凸块输出规范。固定的海滨宽度允许至少两代人的兼容性。
每个模块在每个方向上支持 64 个单端通道,对于高级封装,带宽高达 2Tbps;对于标准封装,支持 16 个通道,带宽高达 512Gbps。UCIe 联盟概述了积极的性能和区域目标,同时提供了足够的选项以使该规范能够部署到许多用例。
传输层规范原生支持CXL/PCIe。原始/流协议选项允许使用任何其他协议。在这种情况下,两端的小芯片都需要支持此自定义协议才能连接。这种原始模式将允许芯片制造商利用 UCIe 标准的物理方面来简化自己的设计/生产。
UCIe 尚未看到广泛的行业适应。尽管AMD是赞助商名单的一部分,但它尚未过渡到该标准。Intel宣布Meteor Lake CPU将支持UCIE。原始流选项有望实现更快的过渡,供应商可以继续使用 UCIe PHY 层运行其专有协议。
CAD 工具供应商已开始提供物理层 IP (PHY) 和适配器 IP,以实现更快的适应。

blob.png

                                                                                                                                                                   表 2:UCIE 中的指标示例。

未来趋势

对于所有希望在封装内集成比光罩大小芯片所能提供的更高吞吐量的高端 ASIC,小芯片将继续存在。封装技术、高速/高密度小芯片互连以及用于冷却封装内这些小芯片的热管理方面的持续创新对于保持这一势头至关重要。

先进封装的更多选择
本文几乎没有涉及三星、英特尔、台积电和其他代工合作伙伴/OSAT 的所有可用封装技术。整个代工厂不断创新,使先进封装具有成本效益。例如,3D 封装可以使用晶圆上芯片或晶圆上晶圆工艺来完成。层叠封装 (POP) 技术允许 ASIC 芯片与 DRAM 封装垂直堆叠,以节省电路板空间。同样,集成扇出 (INFO) 正在考虑集成 HBM,作为硅中介层的经济替代方案……等等。
先进封装趋势
英特尔、三星和台积电凭借其具有竞争力的 3D 封装技术,正在竞相开发混合键距小于 5um 的下一代 3D 封装。通过这些高密度 Cu-CU 接合,3D 堆叠芯片之间的带宽可以呈指数级增长,并使用户能够在芯片之间创建更复杂的功能分区。高密度细线接合还有助于降低垂直互连的总体功耗。
当前逻辑芯片的 3D 堆叠仅限于两个堆叠。在逻辑堆栈顶部添加额外的 DRAM 芯片层可以进一步提高封装密度并减少核心逻辑的 DRAM 读取延迟。
光子中介层
光子集成电路可以充当有源中介层,使用波导在光域中的小芯片之间传输数据。在该技术中,电信号在有源中介层内部转换为光信号,IC 之间的通信在光域中进行。光子互连的论点是电信号比光信号消耗更多的功率并且具有更多的延迟。而且在电气领域连接不相邻的小芯片也更加困难。当构建具有许多需要任意连接或需要重新映射的拓扑的小芯片的大型晶圆级 MCM 时,使用光波导可能会更有效。该技术仍处于萌芽阶段,但具有在晶圆级集成中扩展到任意数量内核的巨大潜力。
联合封装光学器件
联合封装光学器件中小芯片和光子集成电路(用于光收发器)的 2.5D 和 3D 集成将使大型 HPC 集群能够通过光域中服务器 ASIC 之间的点对点连接来构建。与光子中介层共同封装的光学器件可以通过在封装内部和外部切换光学域来进一步推进这一概念!
最终,小芯片的大规模集成拥有持续创新的巨大潜力。

更多的四川半导体微组装设备资讯请联系:18980821008(张生)19382102018(冯小姐)

四川省微电瑞芯科技有限公司http://www.wdrx-semi.com/

版权所有:四川省微电瑞芯科技:http://www.wdrx-semi.com 转载请注明出处