阿里云GPU云服务器怎么样？gpu云服务器产品优势、应用场景、活动价格分享

2024年12月28日09:29

阿里云GPU云服务器怎么样？阿里云GPU结合了GPU计算力与CPU计算力，主要应用于于深度学习、科学计算、图形可视化、视频处理多种应用场景，现在购买有包月5折包年4折起活动，GPU 计算型 gn6i实例包月优惠价1260.75元/1个月起，包年12106.35元/1年起；GPU 计算型 gn6v实例包月优惠价2862.75元/1个月起，包年27485.55元/1年起。本文为您详细介绍阿里云GPU云服务器产品优势、应用场景以及最新活动价格。

一、阿里云GPU云服务器产品优势

阿里云GPU云服务器具有广阔的覆盖范围、超强的计算能力、出色的网络性能和灵活的购买方式，神行工具包（DeepGPU）是专门为GPU云服务器搭配的具有GPU计算服务增强能力的免费工具集。下面介绍GPU云服务器和神行工具包（DeepGPU）的优势。

附：什么是神行工具包（DeepGPU）
神行工具包（DeepGPU）是阿里云专门为GPU云服务器搭配的GPU计算服务增强工具集合，旨在帮助开发者在GPU云服务器上更快速地构建企业级服务能力。GPU云服务器搭配神行工具包（DeepGPU）中的组件可以帮助您更方便地利用阿里云的云上GPU资源，高效完成深度学习、机器学习、大数据分析等任务。

1、GPU产品优势

1.1 覆盖范围广阔：
阿里云GPU云服务器在全球多个地域实现规模部署，覆盖范围广，结合弹性供应、弹性伸缩等交付方式，能够很好地满足您业务的突发需求。

1.2 计算能力超强：
阿里云GPU云服务器配备业界超强算力的GPU计算卡，结合高性能CPU平台，单实例可提供高达1000 TFLOPS的混合精度计算性能。

1.3 网络性能出色：
阿里云GPU云服务器实例的VPC网络最大支持450万的PPS及32 Gbit/s的内网带宽。在此基础上，超级计算集群产品中，节点间额外提供高达50 Gbit/s的RDMA网络，满足节点间数据传输的低延时高带宽要求。

1.4 购买方式灵活：
支持灵活的资源付费模式，包括包年包月、按量付费、抢占式实例、预留实例券、存储容量单位包。您可以按需要购买，避免资源浪费。

2、神行工具包（DeepGPU）优势

神行工具包中的组件主要包括AI加速器Deepytorch、AI分布式训练通信优化库AIACC-ACSpeed、AI训练计算优化编译器AIACC-AGSpeed、集群极速部署工具FastGPU以及GPU容器共享技术cGPU，其各自具有以下核心优势。

2.1 AI加速器Deepytorch
Deepytorch是阿里云自研的AI加速器，为生成式AI和大模型场景提供训练和推理加速功能，在训练和推理方面，具有更好的性能优势和易用性。该AI加速器包含Deepytorch Training和Deepytorch Inference两个软件包。

训练和推理性能显著提升
Deepytorch Training通过整合分布式通信和计算图编译的性能特点，可以实现端到端训练性能的显著提升，使得模型训练迭代速度更快，成本更低。
Deepytorch Inference通过编译加速的方式减少模型推理的延迟，从而提高模型的实时性和响应速度，能显著提升模型的推理加速性能。
易用性好
Deepytorch Training具有充分兼容开源生态等特点，兼容PyTorch主流版本，支持主流分布式训练框架。例如DeepSpeed、PyTorch FSDP或Megatron-LM等。
Deepytorch Inference无需您指定精度和输入尺寸，通过即时编译的方式，提供较好的易用性，代码侵入量较少，从而降低代码复杂度和维护成本。

2.2 AI通信加速库DeepNCCL
DeepNCCL是为阿里云神龙异构产品开发的一种用于多GPU互联的AI通信加速库，在AI分布式训练或多卡推理任务中用于提升通信效率。

通信优化效果显著
支持单机优化和多机优化，相比NCCL原生在性能上提升了20%以上。
无感加速
多GPU互联通信，无感地加速分布式训练或多卡推理等任务。

**2.3 推理引擎DeepGPU-LLM
DeepGPU-LLM是阿里云研发的基于GPU云服务器的大语言模型（Large Language Model，LLM）的推理引擎，在处理大语言模型任务中，该推理引擎可以为您提供高性能的大模型推理服务。

高性能、低延迟
支持多GPU并行（Tensor Parallel）和多卡之间的通信优化，从而提高多GPU并行计算的效率和速度。
支持多种主流模型
支持通义千问Qwen系列、Llama系列、ChatGLM系列以及Baichuan系列等主流模型，满足不同场景下的模型推理。

2.4 AI分布式训练通信优化库AIACC-ACSpeed
AIACC-ACSpeed（AIACC 2.0-AIACC Communication Speeding）作为阿里云自研的AI训练加速器，专注于分布式训练场景的通信优化功能，在训练场景下具有其显著的性能优势，提高计算效率的同时能够降低使用成本。

定制优化
提供针对PyTorch热门框架的特定优化，适用于所有模型的训练场景。
统一加速
基于nccl-plugin组件功能，提供对TensorFlow、Caffe、MXNet多种人工智能框架的统一加速。
性能深度优化
基于阿里云IaaS基础资源（GPU、CPU、网络以及I/O等基础设施）提供性能的深度优化。
弹性伸缩
基于阿里云IaaS基础资源，兼容PyTorch原生特性，支持一键构建和弹性伸缩功能。
开源兼容
轻量便捷、开源兼容。您基于开源框架编写的算法代码或模型代码，几乎无需进行修改。

2.5 AI训练计算优化编译器AIACC-AGSpeed
AIACC-AGSpeed（简称AGSpeed）作为阿里云自研的AI训练计算优化编译器，针对PyTorch热门框架训练场景中存在的计算瓶颈进行深度优化，具有其显著的性能优势，在提高训练效率的同时能够降低使用成本。

定制优化
提供针对PyTorch热门框架的特定优化，适用于PyTorch框架的所有模型的训练场景。
无感加速
通过TorchScript在PyTorch框架中获取后端编译器可优化的静态计算图，属于当前较成熟的方案，但该方案仍无法做到完全的准确与无感。相比PyTorch原生提供的TorchScript前端，AGSpeed具有无感加速的性能优势。
性能深度优化
基于阿里云IaaS基础资源（GPU、CPU、网络以及I/O等基础设施）提供性能的深度优化。
开源兼容
轻量便捷、开源兼容。您基于开源框架编写的算法代码或模型代码，几乎无需进行修改。

2.6 集群极速部署工具FastGPU
使用FastGPU构建人工智能计算任务时，您无需关心IaaS层的计算、存储、网络等资源部署操作，简单适配即可一键部署，帮助您节省时间成本以及经济成本。

节省时间
一键部署集群。无需分别进行IaaS层计算、存储、网络等资源的部署操作，将部署集群的时间缩短到5分钟。
通过接口和命令行管理任务和资源，方便快捷。
节省成本
当数据集完成准备工作并触发训练或推理任务后，才会触发GPU实例资源的购买。当训练或推理任务结束后，将自动释放GPU实例资源。实现了资源生命周期与任务同步，帮助您节省成本。
支持创建抢占式实例。
易用性好
所有资源均为IaaS层，可访问、可调试。
满足可视化和log管理需求，保证任务可回溯。

2.7 GPU容器共享技术cGPU
GPU容器共享技术cGPU拥有节约成本和灵活分配资源的优势，从而实现您业务的安全隔离。

节约成本
随着显卡技术的不断发展和半导体制造工艺的进步，单张GPU卡的算力越来越强，同时价格也越来越高。但在很多的业务场景下，一个AI应用并不需要一整张的GPU卡。cGPU的出现让多个容器共享一张GPU卡，从而实现业务的安全隔离，提升GPU利用率，节约用户成本。
可灵活分配资源
cGPU实现了物理GPU的资源任意划分，您可以按照不同比例灵活配置。
支持按照显存和算力两个维度划分，您可以根据需要灵活分配。

cGPU拥有灵活可配置的算力分配策略，支持三种调度策略的实时切换，满足了AI负载的峰谷能力的要求。

二、阿里云GPU云服务器应用场景

GPU云服务器适用于视频转码、图片渲染、AI训练、AI推理、云端图形工作站等场景，神行工具包（DeepGPU）为了配合GPU云服务器的计算服务增强能力，也适用于所有AI训练场景和AI推理场景。下面介绍GPU云服务器和神行工具包（DeepGPU）的具体应用场景。

1、GPU云服务器应用场景

1.1 直播实时视频转码
阿里云GPU云服务器重点支持2019年天猫双11狂欢夜直播的实时视频转码，以高画质、低带宽、高分辨率、实时的综合优势服务于天猫双11狂欢夜当天直播业务4K、2K、1080P等各个分辨率的转码。具体说明如下：

GPU云服务器支持高并发实时视频流5000路以上，并逐步上升到峰值6200路每分钟，且顺利度过流量洪峰。
GPU云服务器参与实时家居渲染图片生成等业务，首次提供了大量算力强劲的ebmgn6v裸金属实例，支持淘宝渲染方提升几十倍的渲染性能，第一次实现秒级实时渲染，完成总计超过5000张大型家居渲染图。

1.2 AI训练
GPU计算型实例规格族gn6v和gn6e具有优异的通用GPU计算加速能力，适合为深度学习提供加速引擎。具体说明如下：

gn6v实例配备具有16 GB显存的NVIDIA V100 GPU计算卡，gn6e实例配备具有32 GB显存的NVIDIA V100 GPU计算卡，单节点可提供高达1000 TFlops的混合精度计算能力。
实例与弹性计算生态的完美结合，为在线和离线场景提供了通用的解决方案。
实例搭配容器服务使用，可以简化部署和运维的复杂度，提供资源调度服务。

1.3 AI推理
GPU计算型实例规格族gn6i具有优异的AI推理能力，满足了深度学习（尤其是推理）场景下的算力需求。具体说明如下：

gn6i实例基于配备NVIDIA Tesla T4 GPU计算卡，单精度浮点计算能力最高可达8.1 TFlops，int8定点运算处理能力最高可达130 TOPS，支持混合精度。
单卡功耗仅75 W，具有极高的性能功耗比。
实例与弹性计算生态的完美结合，为在线和离线场景提供了通用的解决方案。
实例搭配容器服务使用，可以简化部署和运维的复杂度，并提供资源调度服务。
镜像市场提供预装NVIDIA GPU驱动和深度学习框架的镜像，简化您的部署操作。

1.4 云端图形工作站
GPU计算型实例规格族gn6i采用基于Turing架构的NVIDIA Tesla T4 GPU加速器，具有极佳的图形计算能力。gn6i实例可以结合云桌面产品提供云端图形工作站服务，应用于影视动画设计、工业设计、医疗成像、高性能计算的结果呈现等场景。

2、神行工具包（DeepGPU）应用场景

神行工具包中的组件主要包括神龙AI加速引擎AIACC（AIACC-Training和AIACC-Inference）、AI分布式训练通信优化库AIACC-ACSpeed、AI训练计算优化编译器AIACC-AGSpeed、集群极速部署工具FastGPU以及GPU容器共享技术cGPU，该工具主要适用于AI训练和AI推理场景。具体说明如下：

2.1 AI训练
AIACC适用于所有AI训练场景和AI推理场景。AIACC-ACSpeed和AIACC-AGSpeed适用于所有基于PyTorch框架的AI训练场景，并针对PyTorch框架可以实现定制化的深度优化功能。
AIACC进行AI训练的典型业务场景如下所示：

场景	适用模型	常用存储
图像分类、图像识别	MXNet框架的模型	并行文件存储系统CPFS
CTR预估	TensorFlow框架的Wide&Deep模型	文件系统HDFS
NLP自然语言处理	TensorFlow框架的Transformer、Bert模型	并行文件存储系统CPFS

AIACC-ACSpeed进行AI训练的典型业务场景如下所示：

场景	适用模型	常用存储
图像分类、图像识别	Resnet、VGG16模型等，以及Stable Diffusion等AIGC模型	并行文件存储系统CPFS
CTR预估	Wide&Deep模型	文件系统HDFS
NLP自然语言处理	Transformer、Bert模型等	并行文件存储系统CPFS
大模型	Megatron-LM、DeepSpeed等混合并行的LLM大模型场景的Pretrain和Finetune	并行文件存储系统CPFS

AGSpeed进行AI训练的典型业务场景如下所示：

场景	场景

适用模型	适用模型

图像分类	图像分类

ResNet、MobileNet等模型	ResNet、MobileNet等模型

图像分割	图像分割

Unet3D等模型	Unet3D等模型

NLP自然语言处理	NLP自然语言处理

BERT、GPT2、T5等模型	BERT、GPT2、T5等模型

2.2 AI推理
AIACC能够适用于所有AI推理场景。该工具进行AI推理的典型业务场景如下所示：

场景	适用模型	配置信息	性能优化措施
视频超分推理	超分模型	T4 GPU	进行了如下性能优化，将性能提升至原来的2.7倍。视频解码移植到GPU。前后处理移植到GPU。自动凑满一次运算所需的数据集大小。卷积的深度优化。
图像合成在线推理	GAN模型	T4 GPU	进行了如下性能优化，将性能提升至原来的4倍。前后处理移植到GPU。自动凑满一次运算所需的数据集大小。卷积的深度优化。
CTR预估推理	Wide&Deep模型	M40 GPU	进行了如下性能优化，将性能提升至原来的6.1倍。流水线优化。模型拆分。子模型分别优化。
自然语言处理推理	Bert模型	T4 GPU	进行了如下性能优化，将性能提升至原来的3.3倍。前后处理流水线优化。自动凑满一次运算所需的数据集大小。 Kernel深入优化。

三、阿里云GPU云服务器最新价格

如上图所示，阿里云推出了GPU云服务器首购活动和官网折扣活动：https://www.aliyun.com/product/ecs/gpu
首购活动包月5折，包年低至4折起。官网折扣包月低至6折起，包年低至5折起，还支持叠加使用折扣优惠券，可在活动价格基础上打7.5折，折扣券领取地址：https://www.aliyun.com/minisite/goods

例如GPU 计算型 gn6i实例4核15G活动价格为1681.00元/1个月、10164.00元/6个月、16141.80元/1年，打完折之后优惠价格为1260.75元/1个月、7623.00元/6个月、12106.35元/1年。具体活动价格及打完折之后的优惠价格如下表所示：

gpu实例规格	配置	显存	内存	活动价格	优惠价格
GPU 计算型 gn6i（ecs.gn6i-c4g1.xlarge）	4 vCPU 15 GiB	16G显存T4计算卡	最高配置372G DDR4内存	1681.00元/1个月起 10164.00元/6个月起 16141.80元/1年起	1260.75元/1个月起 7623.00元/6个月起 12106.35元/1年起
GPU 计算型 gn6i（ecs.gn6i-c8g1.2xlarge）	8 vCPU 31 GiB	16G显存T4计算卡	最高配置372G DDR4内存	2026.00元/1个月起 12216.00元/6个月起 19455.60元/1年起	1519.50元/1个月起 9162.00元/6个月起 14591.70元/1年起
GPU 计算型 gn6i（ecs.gn6i-c16g1.4xlarge）	16 vCPU 62 GiB	16G显存T4计算卡	最高配置372G DDR4内存	2372.50元/1个月起 14235.00元/6个月起 22751.40元/1年起	1779.38元/1个月起 10676.25元/6个月起 17063.55元/1年起
GPU 计算型 gn6i（ecs.gn6i-c24g1.6xlarge）	24 vCPU 93 GiB	16G显存T4计算卡	最高配置372G DDR4内存	2485.00元/1个月起 14892.00元/6个月起 23964.00元/1年起	1863.75元/1个月起 11169.00元/6个月起 17973.00元/1年起
GPU 计算型 gn6i（ecs.gn6i-c24g1.12xlarge）	48 vCPU 186 GiB	16G显存T4计算卡	最高配置372G DDR4内存	4960.00元/1个月起 29742.00元/6个月起 47591.40元/1年起	3720.00元/1个月起 22306.50元/6个月起 35693.55元/1年起
GPU 计算型 gn6i（ecs.gn6i-c24g1.24xlarge）	96 vCPU 372 GiB	16G显存T4计算卡	最高配置372G DDR4内存	9910.00元/1个月起 59460.00元/6个月起 95111.40元/1年起	7432.50元/1个月起 44595.00元/6个月起 71333.55元/1年起
GPU 计算型 gn6i（ecs.gn6i-c40g1.10xlarge）	40 vCPU 155 GiB	16G显存T4计算卡	最高配置372G DDR4内存	3563.45元/1个月起 21398.71元/6个月起 34345.94元/1年起	2672.59元/1个月起 16049.03元/6个月起 25759.46元/1年起
GPU 计算型 gn6v（ecs.gn6v-c8g1.2xlarge）	8 vCPU 32 GiB	16G显存V100计算卡	最高配置336G DDR4内存	3817.00元/1个月起 22902.00元/6个月起 36647.40元/1年起	2862.75元/1个月起 17176.50元/6个月起 27485.55元/1年起
GPU 计算型 gn6v（ecs.gn6v-c8g1.4xlarge）	16 vCPU 64 GiB	16G显存V100计算卡	最高配置336G DDR4内存	7627.00元/1个月起 45840.00元/6个月起 73223.40元/1年起	5720.25元/1个月起 34380.00元/6个月起 54917.55元/1年起
GPU 计算型 gn6v（ecs.gn6v-c8g1.8xlarge）	32 vCPU 128 GiB	16G显存V100计算卡	最高配置336G DDR4内存	15247.00元/1个月起 91500.00元/6个月起 146508.00元/1年起	11435.25元/1个月起 68625.00元/6个月起 109881.00元/1年起
GPU 计算型 gn6v（ecs.gn6v-c8g1.16xlarge）	64 vCPU 256 GiB	16G显存V100计算卡	最高配置336G DDR4内存	30490.00元/1个月起 183000.00元/6个月起 292812.00元/1年起	22867.50元/1个月起 137250.00元/6个月起 219609.00元/1年起
GPU 计算型 gn6v（ecs.gn6v-c10g1.20xlarge）	82 vCPU 336 GiB	16G显存V100计算卡	最高配置336G DDR4内存	31647.50元/1个月起 189825.00元/6个月起 303828.00元/1年起	23735.63元/1个月起 142368.75元/6个月起 227871.00元/1年起
GPU 计算型 gn7i（ecs.gn7i-c32g1.8xlarge）	32 vCPU 188 GiB	24G显存A10计算卡	最高配置752G DDR4内存	3203.99元/1个月起 19223.94元/6个月起 30764.30元/1年起	2402.99元/1个月起 14417.96元/6个月起 23073.23元/1年起
GPU计算型 gn5（ecs.gn5-c4g1.xlarge）	4 vCPU 30 GiB	16G显存	P100内存	1847.50元/1个月起 11163.00元/6个月起 17872.80元/1年起	1385.63元/1个月起 8372.25元/6个月起 13404.60元/1年起
GPU计算型 gn5（ecs.gn5-c8g1.2xlarge）	8 vCPU 60 GiB	16G显存	P100内存	3688.50元/1个月起 22131.00元/6个月起 35413.80元/1年起	2766.38元/1个月起 16598.25元/6个月起 26560.35元/1年起
GPU计算型 gn5（ecs.gn5-c8g1.4xlarge）	16 vCPU 120 GiB	16G显存	P100内存	4453.00元/1个月起 26640.00元/6个月起 42628.20元/1年起	3339.75元/1个月起 19980.00元/6个月起 31971.15元/1年起
GPU计算型 gn5（ecs.gn5-c8g1.8xlarge）	32 vCPU 240 GiB	16G显存	P100内存	8885.50元/1个月起 53235.00元/6个月起 85180.20元/1年起	6664.13元/1个月起 39926.25元/6个月起 63885.15元/1年起
GPU计算型 gn5（ecs.gn5-c8g1.14xlarge）	54 vCPU 480 GiB	16G显存	P100内存	17738.00元/1个月起 106428.00元/6个月起 170421.60元/1年起	13303.50元/1个月起 79821.00元/6个月起 127816.20元/1年起
GPU计算型 gn5（ecs.gn5-c28g1.7xlarge）	28 vCPU 112 GiB	16G显存	P100内存	3445.50元/1个月起 20673.00元/6个月起 33081.00元/1年起	2584.13元/1个月起 15504.75元/6个月起 24810.75元/1年起
GPU计算型 gn5（ecs.gn5-c28g1.14xlarge）	56 vCPU 224 GiB	16G显存	P100内存	6883.50元/1个月起 41379.00元/6个月起 66085.80元/1年起	5162.63元/1个月起 31034.25元/6个月起 49564.35元/1年起

综上所述：阿里云GPU云服务器凭借其卓越的产品优势、广泛的应用场景以及极具竞争力的价格，成为了企业在AI时代转型升级的首选。从深度学习到科学计算，从图形可视化到视频处理，阿里云GPU云服务器以其强大的计算能力和灵活的资源付费模式，满足了企业的多样化需求。同时，神行工具包（DeepGPU）的加持，更是进一步提升了AI训练和推理的效率。在优惠活动的加持下，阿里云GPU云服务器无疑是企业拥抱AI、实现智能化转型的明智之选。