阿里云GPU云服务器怎么样?gpu云服务器产品优势、应用场景、活动价格分享

阿里云GPU云服务器怎么样?阿里云GPU结合了GPU计算力与CPU计算力,主要应用于于深度学习、科学计算、图形可视化、视频处理多种应用场景,现在购买有包月5折包年4折起活动,GPU 计算型 gn6i实例包月优惠价1260.75元/1个月起,包年12106.35元/1年起;GPU 计算型 gn6v实例包月优惠价2862.75元/1个月起,包年27485.55元/1年起。本文为您详细介绍阿里云GPU云服务器产品优势、应用场景以及最新活动价格。

一、阿里云GPU云服务器产品优势

阿里云GPU云服务器具有广阔的覆盖范围、超强的计算能力、出色的网络性能和灵活的购买方式,神行工具包(DeepGPU)是专门为GPU云服务器搭配的具有GPU计算服务增强能力的免费工具集。下面介绍GPU云服务器和神行工具包(DeepGPU)的优势。

附:什么是神行工具包(DeepGPU)
神行工具包(DeepGPU)是阿里云专门为GPU云服务器搭配的GPU计算服务增强工具集合,旨在帮助开发者在GPU云服务器上更快速地构建企业级服务能力。GPU云服务器搭配神行工具包(DeepGPU)中的组件可以帮助您更方便地利用阿里云的云上GPU资源,高效完成深度学习、机器学习、大数据分析等任务。

1、GPU产品优势

1.1 覆盖范围广阔:
阿里云GPU云服务器在全球多个地域实现规模部署,覆盖范围广,结合弹性供应、弹性伸缩等交付方式,能够很好地满足您业务的突发需求。

1.2 计算能力超强:
阿里云GPU云服务器配备业界超强算力的GPU计算卡,结合高性能CPU平台,单实例可提供高达1000 TFLOPS的混合精度计算性能。

1.3 网络性能出色:
阿里云GPU云服务器实例的VPC网络最大支持450万的PPS及32 Gbit/s的内网带宽。在此基础上,超级计算集群产品中,节点间额外提供高达50 Gbit/s的RDMA网络,满足节点间数据传输的低延时高带宽要求。

1.4 购买方式灵活:
支持灵活的资源付费模式,包括包年包月、按量付费、抢占式实例、预留实例券、存储容量单位包。您可以按需要购买,避免资源浪费。

2、神行工具包(DeepGPU)优势

神行工具包中的组件主要包括AI加速器Deepytorch、AI分布式训练通信优化库AIACC-ACSpeed、AI训练计算优化编译器AIACC-AGSpeed、集群极速部署工具FastGPU以及GPU容器共享技术cGPU,其各自具有以下核心优势。

2.1 AI加速器Deepytorch
Deepytorch是阿里云自研的AI加速器,为生成式AI和大模型场景提供训练和推理加速功能,在训练和推理方面,具有更好的性能优势和易用性。该AI加速器包含Deepytorch Training和Deepytorch Inference两个软件包。

  • 训练和推理性能显著提升
    Deepytorch Training通过整合分布式通信和计算图编译的性能特点,可以实现端到端训练性能的显著提升,使得模型训练迭代速度更快,成本更低。
    Deepytorch Inference通过编译加速的方式减少模型推理的延迟,从而提高模型的实时性和响应速度,能显著提升模型的推理加速性能。
  • 易用性好
    Deepytorch Training具有充分兼容开源生态等特点,兼容PyTorch主流版本,支持主流分布式训练框架。例如DeepSpeed、PyTorch FSDP或Megatron-LM等。
    Deepytorch Inference无需您指定精度和输入尺寸,通过即时编译的方式,提供较好的易用性,代码侵入量较少,从而降低代码复杂度和维护成本。

2.2 AI通信加速库DeepNCCL
DeepNCCL是为阿里云神龙异构产品开发的一种用于多GPU互联的AI通信加速库,在AI分布式训练或多卡推理任务中用于提升通信效率。

  • 通信优化效果显著
    支持单机优化和多机优化,相比NCCL原生在性能上提升了20%以上。
  • 无感加速
    多GPU互联通信,无感地加速分布式训练或多卡推理等任务。

**2.3 推理引擎DeepGPU-LLM
DeepGPU-LLM是阿里云研发的基于GPU云服务器的大语言模型(Large Language Model,LLM)的推理引擎,在处理大语言模型任务中,该推理引擎可以为您提供高性能的大模型推理服务。

  • 高性能、低延迟
    支持多GPU并行(Tensor Parallel)和多卡之间的通信优化,从而提高多GPU并行计算的效率和速度。
  • 支持多种主流模型
    支持通义千问Qwen系列、Llama系列、ChatGLM系列以及Baichuan系列等主流模型,满足不同场景下的模型推理。

2.4 AI分布式训练通信优化库AIACC-ACSpeed
AIACC-ACSpeed(AIACC 2.0-AIACC Communication Speeding)作为阿里云自研的AI训练加速器,专注于分布式训练场景的通信优化功能,在训练场景下具有其显著的性能优势,提高计算效率的同时能够降低使用成本。

  • 定制优化
    提供针对PyTorch热门框架的特定优化,适用于所有模型的训练场景。
  • 统一加速
    基于nccl-plugin组件功能,提供对TensorFlow、Caffe、MXNet多种人工智能框架的统一加速。
  • 性能深度优化
    基于阿里云IaaS基础资源(GPU、CPU、网络以及I/O等基础设施)提供性能的深度优化。
  • 弹性伸缩
    基于阿里云IaaS基础资源,兼容PyTorch原生特性,支持一键构建和弹性伸缩功能。
  • 开源兼容
    轻量便捷、开源兼容。您基于开源框架编写的算法代码或模型代码,几乎无需进行修改。

2.5 AI训练计算优化编译器AIACC-AGSpeed
AIACC-AGSpeed(简称AGSpeed)作为阿里云自研的AI训练计算优化编译器,针对PyTorch热门框架训练场景中存在的计算瓶颈进行深度优化,具有其显著的性能优势,在提高训练效率的同时能够降低使用成本。

  • 定制优化
    提供针对PyTorch热门框架的特定优化,适用于PyTorch框架的所有模型的训练场景。
  • 无感加速
    通过TorchScript在PyTorch框架中获取后端编译器可优化的静态计算图,属于当前较成熟的方案,但该方案仍无法做到完全的准确与无感。相比PyTorch原生提供的TorchScript前端,AGSpeed具有无感加速的性能优势。
  • 性能深度优化
    基于阿里云IaaS基础资源(GPU、CPU、网络以及I/O等基础设施)提供性能的深度优化。
  • 开源兼容
    轻量便捷、开源兼容。您基于开源框架编写的算法代码或模型代码,几乎无需进行修改。

2.6 集群极速部署工具FastGPU
使用FastGPU构建人工智能计算任务时,您无需关心IaaS层的计算、存储、网络等资源部署操作,简单适配即可一键部署,帮助您节省时间成本以及经济成本。

  • 节省时间
    一键部署集群。无需分别进行IaaS层计算、存储、网络等资源的部署操作,将部署集群的时间缩短到5分钟。
    通过接口和命令行管理任务和资源,方便快捷。
  • 节省成本
    当数据集完成准备工作并触发训练或推理任务后,才会触发GPU实例资源的购买。当训练或推理任务结束后,将自动释放GPU实例资源。实现了资源生命周期与任务同步,帮助您节省成本。
    支持创建抢占式实例。
  • 易用性好
    所有资源均为IaaS层,可访问、可调试。
    满足可视化和log管理需求,保证任务可回溯。

2.7 GPU容器共享技术cGPU
GPU容器共享技术cGPU拥有节约成本和灵活分配资源的优势,从而实现您业务的安全隔离。

  • 节约成本
    随着显卡技术的不断发展和半导体制造工艺的进步,单张GPU卡的算力越来越强,同时价格也越来越高。但在很多的业务场景下,一个AI应用并不需要一整张的GPU卡。cGPU的出现让多个容器共享一张GPU卡,从而实现业务的安全隔离,提升GPU利用率,节约用户成本。
  • 可灵活分配资源
    cGPU实现了物理GPU的资源任意划分,您可以按照不同比例灵活配置。
    支持按照显存和算力两个维度划分,您可以根据需要灵活分配。

cGPU拥有灵活可配置的算力分配策略,支持三种调度策略的实时切换,满足了AI负载的峰谷能力的要求。

二、阿里云GPU云服务器应用场景

GPU云服务器适用于视频转码、图片渲染、AI训练、AI推理、云端图形工作站等场景,神行工具包(DeepGPU)为了配合GPU云服务器的计算服务增强能力,也适用于所有AI训练场景和AI推理场景。下面介绍GPU云服务器和神行工具包(DeepGPU)的具体应用场景。

1、GPU云服务器应用场景

1.1 直播实时视频转码
阿里云GPU云服务器重点支持2019年天猫双11狂欢夜直播的实时视频转码,以高画质、低带宽、高分辨率、实时的综合优势服务于天猫双11狂欢夜当天直播业务4K、2K、1080P等各个分辨率的转码。具体说明如下:

  • GPU云服务器支持高并发实时视频流5000路以上,并逐步上升到峰值6200路每分钟,且顺利度过流量洪峰。
  • GPU云服务器参与实时家居渲染图片生成等业务,首次提供了大量算力强劲的ebmgn6v裸金属实例,支持淘宝渲染方提升几十倍的渲染性能,第一次实现秒级实时渲染,完成总计超过5000张大型家居渲染图。

1.2 AI训练
GPU计算型实例规格族gn6v和gn6e具有优异的通用GPU计算加速能力,适合为深度学习提供加速引擎。具体说明如下:

  • gn6v实例配备具有16 GB显存的NVIDIA V100 GPU计算卡,gn6e实例配备具有32 GB显存的NVIDIA V100 GPU计算卡,单节点可提供高达1000 TFlops的混合精度计算能力。
  • 实例与弹性计算生态的完美结合,为在线和离线场景提供了通用的解决方案。
  • 实例搭配容器服务使用,可以简化部署和运维的复杂度,提供资源调度服务。

1.3 AI推理
GPU计算型实例规格族gn6i具有优异的AI推理能力,满足了深度学习(尤其是推理)场景下的算力需求。具体说明如下:

  • gn6i实例基于配备NVIDIA Tesla T4 GPU计算卡,单精度浮点计算能力最高可达8.1 TFlops,int8定点运算处理能力最高可达130 TOPS,支持混合精度。
  • 单卡功耗仅75 W,具有极高的性能功耗比。
  • 实例与弹性计算生态的完美结合,为在线和离线场景提供了通用的解决方案。
  • 实例搭配容器服务使用,可以简化部署和运维的复杂度,并提供资源调度服务。
  • 镜像市场提供预装NVIDIA GPU驱动和深度学习框架的镜像,简化您的部署操作。

1.4 云端图形工作站
GPU计算型实例规格族gn6i采用基于Turing架构的NVIDIA Tesla T4 GPU加速器,具有极佳的图形计算能力。gn6i实例可以结合云桌面产品提供云端图形工作站服务,应用于影视动画设计、工业设计、医疗成像、高性能计算的结果呈现等场景。

2、神行工具包(DeepGPU)应用场景

神行工具包中的组件主要包括神龙AI加速引擎AIACC(AIACC-Training和AIACC-Inference)、AI分布式训练通信优化库AIACC-ACSpeed、AI训练计算优化编译器AIACC-AGSpeed、集群极速部署工具FastGPU以及GPU容器共享技术cGPU,该工具主要适用于AI训练和AI推理场景。具体说明如下:

2.1 AI训练
AIACC适用于所有AI训练场景和AI推理场景。AIACC-ACSpeed和AIACC-AGSpeed适用于所有基于PyTorch框架的AI训练场景,并针对PyTorch框架可以实现定制化的深度优化功能。
AIACC进行AI训练的典型业务场景如下所示:

场景适用模型常用存储
图像分类、图像识别MXNet框架的模型并行文件存储系统CPFS
CTR预估TensorFlow框架的Wide&Deep模型文件系统HDFS
NLP自然语言处理TensorFlow框架的Transformer、Bert模型并行文件存储系统CPFS

AIACC-ACSpeed进行AI训练的典型业务场景如下所示:

场景适用模型常用存储
图像分类、图像识别Resnet、VGG16模型等,以及Stable Diffusion等AIGC模型并行文件存储系统CPFS
CTR预估Wide&Deep模型文件系统HDFS
NLP自然语言处理Transformer、Bert模型等并行文件存储系统CPFS
大模型Megatron-LM、DeepSpeed等混合并行的LLM大模型场景的Pretrain和Finetune并行文件存储系统CPFS

AGSpeed进行AI训练的典型业务场景如下所示:

场景场景
适用模型适用模型
图像分类图像分类
ResNet、MobileNet等模型ResNet、MobileNet等模型
图像分割图像分割
Unet3D等模型Unet3D等模型
NLP自然语言处理NLP自然语言处理
BERT、GPT2、T5等模型BERT、GPT2、T5等模型

2.2 AI推理
AIACC能够适用于所有AI推理场景。该工具进行AI推理的典型业务场景如下所示:

场景适用模型配置信息性能优化措施
视频超分推理超分模型T4 GPU进行了如下性能优化,将性能提升至原来的2.7倍。
视频解码移植到GPU。
前后处理移植到GPU。
自动凑满一次运算所需的数据集大小。
卷积的深度优化。
图像合成在线推理GAN模型T4 GPU进行了如下性能优化,将性能提升至原来的4倍。
前后处理移植到GPU。
自动凑满一次运算所需的数据集大小。
卷积的深度优化。
CTR预估推理Wide&Deep模型M40 GPU进行了如下性能优化,将性能提升至原来的6.1倍。
流水线优化。
模型拆分。
子模型分别优化。
自然语言处理推理Bert模型T4 GPU进行了如下性能优化,将性能提升至原来的3.3倍。
前后处理流水线优化。
自动凑满一次运算所需的数据集大小。
Kernel深入优化。

三、阿里云GPU云服务器最新价格

如上图所示,阿里云推出了GPU云服务器首购活动和官网折扣活动:https://www.aliyun.com/product/ecs/gpu
首购活动包月5折,包年低至4折起。官网折扣包月低至6折起,包年低至5折起,还支持叠加使用折扣优惠券,可在活动价格基础上打7.5折,折扣券领取地址:https://www.aliyun.com/minisite/goods

例如GPU 计算型 gn6i实例4核15G活动价格为1681.00元/1个月、10164.00元/6个月、16141.80元/1年,打完折之后优惠价格为1260.75元/1个月、7623.00元/6个月、12106.35元/1年。具体活动价格及打完折之后的优惠价格如下表所示:

gpu实例规格配置显存内存活动价格优惠价格
GPU 计算型 gn6i(ecs.gn6i-c4g1.xlarge)4 vCPU 15 GiB16G显存T4计算卡最高配置372G DDR4内存1681.00元/1个月起
10164.00元/6个月起
16141.80元/1年起
1260.75元/1个月起
7623.00元/6个月起
12106.35元/1年起
GPU 计算型 gn6i(ecs.gn6i-c8g1.2xlarge)8 vCPU 31 GiB16G显存T4计算卡最高配置372G DDR4内存2026.00元/1个月起
12216.00元/6个月起
19455.60元/1年起
1519.50元/1个月起
9162.00元/6个月起
14591.70元/1年起
GPU 计算型 gn6i(ecs.gn6i-c16g1.4xlarge)16 vCPU 62 GiB16G显存T4计算卡最高配置372G DDR4内存2372.50元/1个月起
14235.00元/6个月起
22751.40元/1年起
1779.38元/1个月起
10676.25元/6个月起
17063.55元/1年起
GPU 计算型 gn6i(ecs.gn6i-c24g1.6xlarge)24 vCPU 93 GiB16G显存T4计算卡最高配置372G DDR4内存2485.00元/1个月起
14892.00元/6个月起
23964.00元/1年起
1863.75元/1个月起
11169.00元/6个月起
17973.00元/1年起
GPU 计算型 gn6i(ecs.gn6i-c24g1.12xlarge)48 vCPU 186 GiB16G显存T4计算卡最高配置372G DDR4内存4960.00元/1个月起
29742.00元/6个月起
47591.40元/1年起
3720.00元/1个月起
22306.50元/6个月起
35693.55元/1年起
GPU 计算型 gn6i(ecs.gn6i-c24g1.24xlarge)96 vCPU 372 GiB16G显存T4计算卡最高配置372G DDR4内存9910.00元/1个月起
59460.00元/6个月起
95111.40元/1年起
7432.50元/1个月起
44595.00元/6个月起
71333.55元/1年起
GPU 计算型 gn6i(ecs.gn6i-c40g1.10xlarge)40 vCPU 155 GiB16G显存T4计算卡最高配置372G DDR4内存3563.45元/1个月起
21398.71元/6个月起
34345.94元/1年起
2672.59元/1个月起
16049.03元/6个月起
25759.46元/1年起
GPU 计算型 gn6v(ecs.gn6v-c8g1.2xlarge)8 vCPU 32 GiB16G显存V100计算卡最高配置336G DDR4内存3817.00元/1个月起
22902.00元/6个月起
36647.40元/1年起
2862.75元/1个月起
17176.50元/6个月起
27485.55元/1年起
GPU 计算型 gn6v(ecs.gn6v-c8g1.4xlarge)16 vCPU 64 GiB16G显存V100计算卡最高配置336G DDR4内存7627.00元/1个月起
45840.00元/6个月起
73223.40元/1年起
5720.25元/1个月起
34380.00元/6个月起
54917.55元/1年起
GPU 计算型 gn6v(ecs.gn6v-c8g1.8xlarge)32 vCPU 128 GiB16G显存V100计算卡最高配置336G DDR4内存15247.00元/1个月起
91500.00元/6个月起
146508.00元/1年起
11435.25元/1个月起
68625.00元/6个月起
109881.00元/1年起
GPU 计算型 gn6v(ecs.gn6v-c8g1.16xlarge)64 vCPU 256 GiB16G显存V100计算卡最高配置336G DDR4内存30490.00元/1个月起
183000.00元/6个月起
292812.00元/1年起
22867.50元/1个月起
137250.00元/6个月起
219609.00元/1年起
GPU 计算型 gn6v(ecs.gn6v-c10g1.20xlarge)82 vCPU 336 GiB16G显存V100计算卡最高配置336G DDR4内存31647.50元/1个月起
189825.00元/6个月起
303828.00元/1年起
23735.63元/1个月起
142368.75元/6个月起
227871.00元/1年起
GPU 计算型 gn7i(ecs.gn7i-c32g1.8xlarge)32 vCPU 188 GiB24G显存A10计算卡最高配置752G DDR4内存3203.99元/1个月起
19223.94元/6个月起
30764.30元/1年起
2402.99元/1个月起
14417.96元/6个月起
23073.23元/1年起
GPU计算型 gn5(ecs.gn5-c4g1.xlarge)4 vCPU 30 GiB16G显存P100内存1847.50元/1个月起
11163.00元/6个月起
17872.80元/1年起
1385.63元/1个月起
8372.25元/6个月起
13404.60元/1年起
GPU计算型 gn5(ecs.gn5-c8g1.2xlarge)8 vCPU 60 GiB16G显存P100内存3688.50元/1个月起
22131.00元/6个月起
35413.80元/1年起
2766.38元/1个月起
16598.25元/6个月起
26560.35元/1年起
GPU计算型 gn5(ecs.gn5-c8g1.4xlarge)16 vCPU 120 GiB16G显存P100内存4453.00元/1个月起
26640.00元/6个月起
42628.20元/1年起
3339.75元/1个月起
19980.00元/6个月起
31971.15元/1年起
GPU计算型 gn5(ecs.gn5-c8g1.8xlarge)32 vCPU 240 GiB16G显存P100内存8885.50元/1个月起
53235.00元/6个月起
85180.20元/1年起
6664.13元/1个月起
39926.25元/6个月起
63885.15元/1年起
GPU计算型 gn5(ecs.gn5-c8g1.14xlarge)54 vCPU 480 GiB16G显存P100内存17738.00元/1个月起
106428.00元/6个月起
170421.60元/1年起
13303.50元/1个月起
79821.00元/6个月起
127816.20元/1年起
GPU计算型 gn5(ecs.gn5-c28g1.7xlarge)28 vCPU 112 GiB16G显存P100内存3445.50元/1个月起
20673.00元/6个月起
33081.00元/1年起
2584.13元/1个月起
15504.75元/6个月起
24810.75元/1年起
GPU计算型 gn5(ecs.gn5-c28g1.14xlarge)56 vCPU 224 GiB16G显存P100内存6883.50元/1个月起
41379.00元/6个月起
66085.80元/1年起
5162.63元/1个月起
31034.25元/6个月起
49564.35元/1年起

综上所述:阿里云GPU云服务器凭借其卓越的产品优势、广泛的应用场景以及极具竞争力的价格,成为了企业在AI时代转型升级的首选。从深度学习到科学计算,从图形可视化到视频处理,阿里云GPU云服务器以其强大的计算能力和灵活的资源付费模式,满足了企业的多样化需求。同时,神行工具包(DeepGPU)的加持,更是进一步提升了AI训练和推理的效率。在优惠活动的加持下,阿里云GPU云服务器无疑是企业拥抱AI、实现智能化转型的明智之选。

本文原创链接:https://www.tengxunyun8.com/10460.html
版权所有,如未注明,均为原创,转载请注明