视觉语言 (VL) AI 模型 BridgeTower 的新微调性能基准表明,除了 Nvidia 的绿色之外,AI 加速阵营也有活力。虽然英伟达确实在人工智能加速市场占据主导地位(通过卓越的远见、经过深思熟虑和记录的软件堆栈以及纯粹的处理性能),但其他参与者却热衷于在人工智能市场中分得一杯羹。至少对于 BridgeTower 来说,英特尔自己的 Gaudi 2 芯片(通过英特尔2019 年斥资20 亿美元收购Habana 设计和制造)已被 Hugging Face 证明比 Nvidia 的 A100 80 GB 性能高出惊人的 2.5 倍 - 甚至击败了 Nvidia 的神童 -儿童 H100 1.4 倍。
视觉语言(VL)是指能够跨语言和视觉表示形式处理和关联信息的人工智能模型。具体来说,VL 模型通常与图像生成模型相关,例如 Open AI 的 CLIP 和 Stable Diffusion XL——这是一个快速增长的市场,主要由 Midjourney、Stable Diffusion 和现在的 Ideogram 主导。
根据 Habana 的说法,显着的加速是硬件加速数据加载系统的结果——这是 AI 模型微调的瓶颈之一,对于 VL 模型尤其如此。无论计算位于何处,将工作负载加载到内存中通常都是性能瓶颈之一,因此 Habana 并不会寻求优化训练过程中的这一特定步骤。
主要瓶颈与 CPU 如何受到许多昂贵操作的影响有关,例如图像解码和图像增强(与GPU 绘制调用争论类似的问题),这导致 HPU(或 Nvidia GPU)在等待更多数据时停止运行。 (由 CPU)处理,然后发送到所选的 AI 加速器。这是在没有任何硬件加速的情况下该过程的进行方式:
获取数据(例如 JPEG 图像存储在磁盘上的位置)
CPU读取编码图像
CPU解码图像
CPU 应用图像变换来增强图像
图像被发送到设备(尽管这通常不是由数据加载器本身完成的)