NVIDIA 今天宣布推出全新的 AI 软件堆栈,称为 TensorRT LLM,可提高 GPU 上的大型语言模型性能。
NVIDIA TensorRT-LLM 在 Hopper AI GPU 上将大型语言模型性能提升高达 8 倍
NVIDIA 宣布推出 TensorRT-LLM,这是一款高度优化的开源库,可通过 NVIDIA 的 AI GPU(例如 Hopper)在所有大型语言模型中实现最快的推理性能。NVIDIA 与开源社区内的所有法学硕士合作,利用最新的 AI 内核和 SmoothQuant、FlashAttention 和 fMHA 等尖端技术来优化其 GPU。开源基金会包括现成运行的 SOTA 推理优化版本的 LLM,例如 GPT-3 (175B)、Llama Falcom (180B) 和 Bloom,仅举几例。
相关故事 MSI GeForce RTX 4090 和 RTX 4080 游戏超薄 GPU 减轻了重量,只有 3 个插槽厚
TensorRT-LLM 还经过优化,可以在具有 Infiniband 互连的多个 NVLINK 服务器之间进行自动并行化。以前,必须在多个服务器/GPU 上手动为服务器分配大型语言模型,而使用 Tensor-RT LLM 则不再是这种情况。
TensorRT-LLM 带来的最大更新之一是一种称为“飞行批处理”的新调度程序,它允许工作独立于其他任务进入和退出 GPU。它允许动态处理多个较小的查询,同时在同一 GPU 中处理大型计算密集型请求。整个过程使 GPU 更加高效,并导致 H100 等 GPU 的吞吐量大幅提升,准确地说高达 2 倍。
TensorRT-LLM 堆栈还围绕 Hopper 的 Tranormer 引擎及其计算 FP8 功能进行了优化。该库提供自动 FP8 转换、用于内核融合的 DL 编译器和混合精度优化器,并支持 NVIDIA 自己的 Smoothquaint 算法,可在不损失精度的情况下实现 8 位量化性能。