icon-cookie
The website uses cookies to optimize your user experience. Using this website grants us the permission to collect certain information essential to the provision of our services to you, but you may change the cookie settings within your browser any time you wish. Learn more
I agree
blank_error__heading
blank_error__body
Text direction?

国内首家,阿里云发布基于公共云的虚拟GPU服务

September 25, 2019 by 英伟达中国
0 Shares

VGN5i实例将NVIDIA Quadro虚拟工作站功能引入阿里云市场

美国加利福尼亚州圣何塞——GPU技术大会——2019年3月18日——今天,在硅谷举办的2019年NVIDIA GPU技术大会(GTC)上,阿里云发布了国内首个公共云虚拟GPU异构计算产品VGN5i实例,打破了传统直通模式的局限,可以提供比单颗物理GPU更细粒度的服务,帮助企业用户降低成本、提高业务运维效率。

据悉,该产品基于NVIDIA Tesla P4 GPU,支持多种规格,企业可以按需选择适当的实例规格或者选择云市场NVIDIA Quadro虚拟工作站(Quadro vWS),该产品适用于云游戏、AR/VR以及图形处理等随需应变的GPU计算场景。阿里云表示,5月还将率先发布基于NVIDIA T4的GPU异构计算产品VGN6i实例,NVIDIA T4采用最新的Turing架构,在虚拟化环境中更为灵活, NVIDIA T4 GPU拥有可加速深度学习和推理工作流程的Tensor Core,以及可加速光线追踪和批量渲染的RT Core。对于GPU密度较低的工作负载而言,VGN6i最小可以提供单颗GPU十六分之一的虚拟工作站性能。

从高性能到异构计算,阿里云实现场景全覆盖

云端异构计算并非单纯地堆积硬件性能,需要做深度的软硬件结合及优化才能发挥其性能优势。阿里巴巴集团在异构计算领域拥有多年研发经验,该技术大规模应用于拍立淘、商品分类等场景。2017年10月,阿里云将自身积累多年的技术对外开放,面向企业推出了业界最全的异构计算家族,以及基于一个异构平台的高性能计算平台E-HPC,当用户业务遇到业务高峰时可以在数分钟内实现扩容,大幅降低了企业使用异构计算能力的门槛,目前已服务于新浪微博、旷视科技、中国工程院等众多企业和机构。

然而,在不少使用异构计算服务的场景中,“计算资源过剩”问题也尤为明显。以云游戏为例,企业通常仅需要一颗物理GPU几分之一的计算能力即可流畅完成图形或视觉计算;人工智能领域也存在类似问题,深度学习推理场景对GPU的计算资源消耗可能仅仅是训练阶段的数十分之一,甚至更少。对于这类应用场景而言,云计算可以助力灵活性的提升和成本的降低。

为此,阿里云首次基于KVM架构与NVIDIA合作研发了异构计算产品。据了解,该产品集成了阿里云智能资源调度技术,可以为用户提供基于工作负载需要的资源分配;同时,还采用了安全隔离技术,实现不同用户之间的强隔离,有效防止信息泄漏;除此之外,QoS控制技术保障了每个用户的GPU资源不被其他租户抢占。阿里云智能异构计算产品专家张新涛表示,“随着GPU异构计算产品的推出,阿里云实现了基于NVIDIA GPU的异构计算场景全覆盖,可以为用户提供从灵活、随需而变的计算到高性能计算的服务。”

作为全球前三、国内第一的云服务商,阿里云拥有丰富的异构计算产品,具备智能调度、自动运维、实时扩容等能力,结合业界首个自研的异构计算加速框架Ali-Perseus,可以同时支持TensorFlow、Caffe、MxNet、Pytorch等流行机器学习框架在集群训练和推理时的加速,最高可以将深度学习任务成本降低50%以上。2018年12月,在斯坦福大学发布的最新DAWNBench深度学习推理榜单,阿里云异构计算获得了图像识别性能及成本双料冠军。

Measure
Measure
Related Notes
Get a free MyMarkup account to save this article and view it later on any device.
Create account

End User License Agreement

Summary | 15 Annotations
公共云虚拟GPU异构计算产品VGN5i实例
2020/06/30 06:45
单颗物理GPU更细粒度的服务
2020/06/30 06:45
NVIDIA Tesla P4 GPU
2020/06/30 06:45
可加速深度学习
2020/06/30 06:46
Turing架构
2020/06/30 06:46
虚拟化环境中更为灵活
2020/06/30 06:46
云端异构计算并非单纯地堆积硬件性能
2020/06/30 06:46
深度的软硬件结合及优化才能发挥其性能优势
2020/06/30 06:46
计算资源过剩
2020/06/30 06:46
深度学习推理场景对GPU的计算资源消耗可能仅仅是训练阶段的数十分之一,甚至更少
2020/06/30 06:47
KVM架构与NVIDIA合作研发了异构计算产品
2020/06/30 06:47
基于工作负载需要的资源分配
2020/06/30 06:47
安全隔离技术
2020/06/30 06:47
实现不同用户之间的强隔离,有效防止信息泄漏
2020/06/30 06:47
QoS控制技术保障了每个用户的GPU资源不被其他租户抢占
2020/06/30 06:47