优化 NVIDIA GPU 上 LLM

2025/08/08

提升NVIDIA GPU上LLM推理的性价比：Amazon SageMaker与NVIDIA NIM微服务的集成

作者：James Park, Eliuth Triana, Jiahong Liu, Kshitiz Gupta, HarishTummalacherla, Nikhil Kulkarni, Qing Lan, 和 Saurabh Trikande
日期：2024年3月18日
发布于 ：和

核心要点

在本文中，我们探讨了如何通过Amazon SageMaker与NVIDIA NIM微服务的集成，来优化大规模语言模型（LLM）在NVIDIAGPU上的推理性能和成本。NIM微服务提供了强大的工具以简化和加速LLM的部署，让开发者能够更轻松地实现自然语言处理（NLP）功能。

NIM微服务现已与Amazon SageMaker集成，使得用户能够快速部署最先进的LLM，并针对NVIDIAGPU的特性优化模型性能与成本。借助NVIDIA TensorRT、TensorRT- LLM和Triton推理服务器，用户可以在几分钟内完成LLM的部署，而非几天。

NVIDIA NIM介绍

NIM提供了一系列优化的推理引擎，支持多种流行的模型，具体如下：

模型	介绍
Llama 2	提供7B, 13B, 70B参数的模型
Mistral-7B-Instruct	特别适合指令型任务
Mixtral-8x7B	适用于多种类型输入的模型
NVIDIA Nemotron-3 22B	定制化高性能应用所需的模型
Code Llama 70B	专注于代码生成和理解的模型

NIM为这些模型提供了预构建的NVIDIA TensorRT引擎，以最大限度地提升在特定NVIDIAGPU上的性能与利用率。即使你的模型不在NVIDIA的精选模型列表中，NIM也提供了诸如模型仓库生成器等实用工具，支持使用简单的YAML文件创建TensorRT- LLM加速的引擎和NIM格式模型目录。

高级托管技术

NIM不仅可以创建优化的LLM以供推理使用，还提供了诸如在飞行中批处理的优化调度技术。这种技术能够将LLM的整体文本生成过程分解为多个迭代，从而提升计算实例和GPU的使用效率。

在SageMaker上部署NIM

通过与SageMaker的集成，NIM使得在Amazon平台上托管LLM变得更加高效和经济。使用NIM时，开发者能够利用SageMaker的诸多功能，比如实例数量扩展、蓝绿部署和工作负载评估（如影子测试），并借助AWSCloudWatch实现卓越的可观测性和监控。

结论

通过使用NIM部署优化的LLM，用户可以享受出色的性能与成本效益。这使得LLM的部署变得简单且高效。未来，NIM还将支持参数高效的微调（PEFT）方法，如LoRA和P- tuning，同时将支持Triton推理服务器、TensorRT-LLM和vLLM后端。

我们鼓励大家深入了解NVIDIA微服务及其在SageMaker中的部署方法，享受这些技术带来的诸多优势。NIM作为付费产品，已在AWSMarketplace中上市。

不久之后，我们将发布有关在SageMaker上使用NIM的详细指南。

作者简介

![JamesPark](https://d2908q01vomqb2.cloudfront.net/f1f836cb4ea6efb2a0b1b99f41ad8b103eff4b59/2022/08/18/james- 删除)

James Park 是亚马逊云服务的解决方案架构师，专注于设计、构建和部署AWS的技术解决方案，并特别关注人工智能及机器学习。他喜欢探索新文化和新体验，并保持关注最新的技术趋势。可以在上找到他。

![Saurabh删除)
Saurabh Trikande 是AmazonSageMaker推理的高级产品经理。他致力于与客户合作，推动机器学习的普及，关注复杂机器学习应用的部署、多租户模型、成本优化等挑战。闲暇时，他喜欢远足、学习创新技术、关注TechCrunch，并与家人共度时光。

![Qing删除)
Qing Lan 是AWS的软件开发工程师，参与多个高性能机器学习推理解决方案的开发。凭借深入的基础设施优化和深度学习加速知识，Qing的团队成功推出了亚马逊广告的首个十亿参数模型。

![NikhilKulkarni](https://d2908q01vomqb2.cloudfront.net/f1f836cb4ea6efb2a0b1b99f41ad8b103eff4b59/2021/12/21/Nikhil- 删除)

Nikhil Kulkarni 是AWS机器学习团队的软件开发人员，专注于提升云上机器学习工作负载的性能。他是AWS深度学习容器的共同创作者，热衷于分布式深度学习系统。闲暇时，他喜欢阅读、弹吉他和制作比萨。

![Harish删除)
Harish Tummalacherla 是SageMaker深度学习性能团队的软件工程师，专注于提升大规模语言模型的服务效率。闲暇时，他喜欢跑步、骑自行车和滑雪登山。

![EliuthTriana](https://d2908q01vomqb2.cloudfront.net/f1f836cb4ea6efb2a0b1b99f41ad8b103eff4b59/2021/12/21/Nikhil- 删除)

Eliuth Triana Isaza 是NVIDIA的开发者关系经理，专注于推动亚马逊的AIMLOps、DevOps和技术专家掌握NVIDIA计算堆栈，以加速和优化生成AI基础模型。

![JiahongLiu](https://d2908q01vomqb2.cloudfront.net/f1f836cb4ea6efb2a0b1b99f41ad8b103eff4b59/2022/08/18/Jiahong- 删除)

Jiahong Liu 是NVIDIA云服务提供商团队的解决方案架构师，帮助客户采用机器学习及AI解决方案。

![KshitizGupta](https://d2908q01vomqb2.cloudfront.net/f1f836cb4ea6efb2a0b1b99f41ad8b103eff4b59/2022/08/18/Kshitiz- 删除)

Kshitiz Gupta 是NVIDIA的解决方案架构师，教授客户关于GPU AI技术，并协助加速其机器学习应用。

优化 NVIDIA GPU 上 LLM

提升NVIDIA GPU上LLM推理的性价比：Amazon SageMaker与NVIDIA NIM微服务的集成

核心要点

NVIDIA NIM介绍

高级托管技术

在SageMaker上部署NIM

结论

作者简介

Leave a Reply

Recent Posts

Categories

注册优惠