优化 NVIDIA GPU 上 LLM

提升NVIDIA GPU上LLM推理的性价比:Amazon SageMaker与NVIDIA NIM微服务的集成

作者 :James Park, Eliuth Triana, Jiahong Liu, Kshitiz Gupta, HarishTummalacherla, Nikhil Kulkarni, Qing Lan, 和 Saurabh Trikande
日期 :2024年3月18日
发布于 :和

核心要点

在本文中,我们探讨了如何通过Amazon SageMaker与NVIDIA NIM微服务的集成,来优化大规模语言模型(LLM)在NVIDIAGPU上的推理性能和成本。NIM微服务提供了强大的工具以简化和加速LLM的部署,让开发者能够更轻松地实现自然语言处理(NLP)功能。

NIM微服务现已与Amazon SageMaker集成,使得用户能够快速部署最先进的LLM,并针对NVIDIAGPU的特性优化模型性能与成本。借助NVIDIA TensorRT、TensorRT- LLM和Triton推理服务器,用户可以在几分钟内完成LLM的部署,而非几天。

NVIDIA NIM介绍

NIM提供了一系列优化的推理引擎,支持多种流行的模型,具体如下:

模型介绍
Llama 2提供7B, 13B, 70B参数的模型
Mistral-7B-Instruct特别适合指令型任务
Mixtral-8x7B适用于多种类型输入的模型
NVIDIA Nemotron-3 22B定制化高性能应用所需的模型
Code Llama 70B专注于代码生成和理解的模型

NIM为这些模型提供了预构建的NVIDIA TensorRT引擎,以最大限度地提升在特定NVIDIAGPU上的性能与利用率。即使你的模型不在NVIDIA的精选模型列表中,NIM也提供了诸如模型仓库生成器等实用工具,支持使用简单的YAML文件创建TensorRT- LLM加速的引擎和NIM格式模型目录。

高级托管技术

NIM不仅可以创建优化的LLM以供推理使用,还提供了诸如在飞行中批处理的优化调度技术。这种技术能够将LLM的整体文本生成过程分解为多个迭代,从而提升计算实例和GPU的使用效率。

在SageMaker上部署NIM

通过与SageMaker的集成,NIM使得在Amazon平台上托管LLM变得更加高效和经济。使用NIM时,开发者能够利用SageMaker的诸多功能,比如实例数量扩展、蓝绿部署和工作负载评估(如影子测试),并借助AWSCloudWatch实现卓越的可观测性和监控。

结论

通过使用NIM部署优化的LLM,用户可以享受出色的性能与成本效益。这使得LLM的部署变得简单且高效。未来,NIM还将支持参数高效的微调(PEFT)方法,如LoRA和P- tuning,同时将支持Triton推理服务器、TensorRT-LLM和vLLM后端。

我们鼓励大家深入了解NVIDIA微服务及其在SageMaker中的部署方法,享受这些技术带来的诸多优势。NIM作为付费产品,已在AWSMarketplace中上市。

不久之后,我们将发布有关在SageMaker上使用NIM的详细指南。


作者简介

![JamesPark](https://d2908q01vomqb2.cloudfront.net/f1f836cb4ea6efb2a0b1b99f41ad8b103eff4b59/2022/08/18/james- 删除)

James Park 是亚马逊云服务的解决方案架构师,专注于设计、构建和部署AWS的技术解决方案,并特别关注人工智能及机器学习。他喜欢探索新文化和新体验,并保持关注最新的技术趋势。可以在上找到他。

![Saurabh删除)
Saurabh Trikande 是AmazonSageMaker推理的高级产品经理。他致力于与客户合作,推动机器学习的普及,关注复杂机器学习应用的部署、多租户模型、成本优化等挑战。闲暇时,他喜欢远足、学习创新技术、关注TechCrunch,并与家人共度时光。

![Qing删除)
Qing Lan 是AWS的软件开发工程师,参与多个高性能机器学习推理解决方案的开发。凭借深入的基础设施优化和深度学习加速知识,Qing的团队成功推出了亚马逊广告的首个十亿参数模型。

![NikhilKulkarni](https://d2908q01vomqb2.cloudfront.net/f1f836cb4ea6efb2a0b1b99f41ad8b103eff4b59/2021/12/21/Nikhil- 删除)

Nikhil Kulkarni 是AWS机器学习团队的软件开发人员,专注于提升云上机器学习工作负载的性能。他是AWS深度学习容器的共同创作者,热衷于分布式深度学习系统。闲暇时,他喜欢阅读、弹吉他和制作比萨。

![Harish删除)
Harish Tummalacherla 是SageMaker深度学习性能团队的软件工程师,专注于提升大规模语言模型的服务效率。闲暇时,他喜欢跑步、骑自行车和滑雪登山。

![EliuthTriana](https://d2908q01vomqb2.cloudfront.net/f1f836cb4ea6efb2a0b1b99f41ad8b103eff4b59/2021/12/21/Nikhil- 删除)

Eliuth Triana Isaza 是NVIDIA的开发者关系经理,专注于推动亚马逊的AIMLOps、DevOps和技术专家掌握NVIDIA计算堆栈,以加速和优化生成AI基础模型。

![JiahongLiu](https://d2908q01vomqb2.cloudfront.net/f1f836cb4ea6efb2a0b1b99f41ad8b103eff4b59/2022/08/18/Jiahong- 删除)

Jiahong Liu 是NVIDIA云服务提供商团队的解决方案架构师,帮助客户采用机器学习及AI解决方案。

![KshitizGupta](https://d2908q01vomqb2.cloudfront.net/f1f836cb4ea6efb2a0b1b99f41ad8b103eff4b59/2022/08/18/Kshitiz- 删除)

Kshitiz Gupta 是NVIDIA的解决方案架构师,教授客户关于GPU AI技术,并协助加速其机器学习应用。

Leave a Reply

Required fields are marked *