作者 :James Park, Eliuth Triana, Jiahong Liu, Kshitiz Gupta, HarishTummalacherla, Nikhil Kulkarni, Qing Lan, 和 Saurabh Trikande
日期 :2024年3月18日
发布于 :和
在本文中,我们探讨了如何通过Amazon SageMaker与NVIDIA NIM微服务的集成,来优化大规模语言模型(LLM)在NVIDIAGPU上的推理性能和成本。NIM微服务提供了强大的工具以简化和加速LLM的部署,让开发者能够更轻松地实现自然语言处理(NLP)功能。
NIM微服务现已与Amazon SageMaker集成,使得用户能够快速部署最先进的LLM,并针对NVIDIAGPU的特性优化模型性能与成本。借助NVIDIA TensorRT、TensorRT- LLM和Triton推理服务器,用户可以在几分钟内完成LLM的部署,而非几天。
NIM提供了一系列优化的推理引擎,支持多种流行的模型,具体如下:
模型 | 介绍 |
---|---|
Llama 2 | 提供7B, 13B, 70B参数的模型 |
Mistral-7B-Instruct | 特别适合指令型任务 |
Mixtral-8x7B | 适用于多种类型输入的模型 |
NVIDIA Nemotron-3 22B | 定制化高性能应用所需的模型 |
Code Llama 70B | 专注于代码生成和理解的模型 |
NIM为这些模型提供了预构建的NVIDIA TensorRT引擎,以最大限度地提升在特定NVIDIAGPU上的性能与利用率。即使你的模型不在NVIDIA的精选模型列表中,NIM也提供了诸如模型仓库生成器等实用工具,支持使用简单的YAML文件创建TensorRT- LLM加速的引擎和NIM格式模型目录。
NIM不仅可以创建优化的LLM以供推理使用,还提供了诸如在飞行中批处理的优化调度技术。这种技术能够将LLM的整体文本生成过程分解为多个迭代,从而提升计算实例和GPU的使用效率。
通过与SageMaker的集成,NIM使得在Amazon平台上托管LLM变得更加高效和经济。使用NIM时,开发者能够利用SageMaker的诸多功能,比如实例数量扩展、蓝绿部署和工作负载评估(如影子测试),并借助AWSCloudWatch实现卓越的可观测性和监控。
通过使用NIM部署优化的LLM,用户可以享受出色的性能与成本效益。这使得LLM的部署变得简单且高效。未来,NIM还将支持参数高效的微调(PEFT)方法,如LoRA和P- tuning,同时将支持Triton推理服务器、TensorRT-LLM和vLLM后端。
我们鼓励大家深入了解NVIDIA微服务及其在SageMaker中的部署方法,享受这些技术带来的诸多优势。NIM作为付费产品,已在AWSMarketplace中上市。
不久之后,我们将发布有关在SageMaker上使用NIM的详细指南。

James Park 是亚马逊云服务的解决方案架构师,专注于设计、构建和部署AWS的技术解决方案,并特别关注人工智能及机器学习。他喜欢探索新文化和新体验,并保持关注最新的技术趋势。可以在上找到他。

Nikhil Kulkarni 是AWS机器学习团队的软件开发人员,专注于提升云上机器学习工作负载的性能。他是AWS深度学习容器的共同创作者,热衷于分布式深度学习系统。闲暇时,他喜欢阅读、弹吉他和制作比萨。

Eliuth Triana Isaza 是NVIDIA的开发者关系经理,专注于推动亚马逊的AIMLOps、DevOps和技术专家掌握NVIDIA计算堆栈,以加速和优化生成AI基础模型。

Jiahong Liu 是NVIDIA云服务提供商团队的解决方案架构师,帮助客户采用机器学习及AI解决方案。

Kshitiz Gupta 是NVIDIA的解决方案架构师,教授客户关于GPU AI技术,并协助加速其机器学习应用。
Leave a Reply