英特尔在 Hot Chips 2023 芯片会议上推出了首款直接网状到网状光子结构,强调了其在光学芯片到芯片互连未来方面取得的进展,这一技术也得到了 Nvidia 和 Ayar Labs 等公司的支持。然而,英特尔用于演示的八核 528 线程芯片因其独特的架构而成为众人瞩目的焦点,该架构每核支持 66 个线程,可实现高达 1TB/s 的数据吞吐量。令人惊讶的是,该芯片仅消耗 75W 的功率,其中约 60% 的功率用于光学互连,但该设计最终可以使具有 200 万个内核的系统能够以低于 400ns 的延迟直接连接。
英特尔的 PUMA(可编程统一内存架构)芯片是 DARPA HIVE 计划的一部分,该计划专注于提高 PB 级图形分析工作的性能,以将超稀疏工作负载的每瓦性能提高 1000 倍。
对于像英特尔这样以 x86 为中心的公司来说,令人惊讶的是,该测试芯片利用定制的 RISC 架构来简化图形分析工作负载的性能,使单线程性能提高 8 倍。该芯片也是采用台积电的7nm工艺制造的,而不是英特尔自己的内部节点。
在描述了目标工作负载的特征后,英特尔得出的结论是,它需要设计一种架构来解决与内存子系统、深度管道、分支预测器和工作负载创建的无序逻辑上的极端压力相关的挑战。
英特尔的定制内核采用极端并行性来调整 8 个内核中每个内核的 66 个硬件线程、大型 L1 指令和数据缓存以及每个内核 4MB 暂存器 SRAM。该八核芯片具有 32 个光学 I/O 端口,每个端口的运行速度为 32 GB/s/dir,因此总带宽为 1TB/s。这些芯片放入八插槽 OCP 服务器底座中,为系统提供高达 16 TB/s 的总光学吞吐量,每个芯片均由 32GB 定制 DDR5-4000 DRAM 供电。