本篇文章2743字,读完约7分钟

作者:时代财经石承超

张先涛,阿里巴巴云计算事业部主管。来源:阿里巴巴云会议

7月15日,阿里巴巴云宣布推出第三代神龙云服务器。与上一代相比,第三代神龙云服务器的综合性能提升了160%,比目前世界顶级云服务器快30%以上,能够提供顶级计算能力。

传统服务器主要依靠堆硬件来提高性能,而阿里巴巴云(Alibaba Cloud)在原有硬件云概念的基础上自行开发的神龙架构,打破了虚拟化技术与cpu、内存、网卡等硬件的差距,发挥出比传统物理机更强的性能。目前,世界上只有两家厂商,亚马逊aws和阿里巴巴云,通过相关技术实现了零损失虚拟化。

阿里云造第三代神龙,性能暴涨160%,号称算力全球最强

时代财经从阿里巴巴云了解到,第三代神龙云服务器产品系列最多提供208个内核和6tb的内存。云磁盘iops(即每秒的输入和输出)高达100万,网络转发高达2400万,网络带宽高达100克。它们是世界上最高的性能级别,支持cpu、gpu、npu、fpga等计算形式,并具有在3分钟内交付50万核vcpu的快速扩展能力

阿里云造第三代神龙,性能暴涨160%,号称算力全球最强

十年来,阿里巴巴云的存储性能提高了2000倍,网络性能提高了500倍,整体计算能力平均每12个月翻一番,超过了摩尔定律,其中阿里自主开发的神龙架构发挥了重要作用。

在接受时代财经和其他媒体采访时,阿里巴巴云的灵活计算主管张贤涛将自己的成就归功于“自我研究”。与上一代相比,神龙云服务器不仅在性能上有了很大的飞跃,而且在各种性能参数上也代表了云计算行业与传统数据中心的进一步差距。在这背后,阿里巴巴云的自我研究侧重于软件和硬件的整合。

阿里云造第三代神龙,性能暴涨160%,号称算力全球最强

“过去,虚拟化技术的设计理念是确定服务器和计算体系结构,以及如何通过软件调整计算体系结构。当我们在做龙的时候,我们在做相反的事情。”张宪涛说:“随着云计算的深入发展,软硬件融合的架构设计将成为云技术架构的主流。在3-5年内,容器将占it架构的一半以上。”

阿里云造第三代神龙,性能暴涨160%,号称算力全球最强

神龙架构最初是为了减少云计算行业的性能损失而诞生的。

2009年,阿里巴巴云成立后,采用当时流行的开源虚拟化软件xen,2014年升级到kvm架构。后者在虚拟机和硬件之间增加了一个软件层——虚拟机管理程序,直接在物理硬件上运行,大大降低了虚拟化的性能损失。然而,它仍然存在许多缺陷,给产品和客户带来了巨大的挑战。

阿里云造第三代神龙,性能暴涨160%,号称算力全球最强

首先是资源竞争。客户使用的虚拟机与虚拟化管理系统的主机“同处一室”,这就带来了虚拟机计算能力的波动。云供应商不能把这台机器的所有计算能力都给客户。此外,性能瓶颈会影响整个存储和网络的虚拟化,降低稳定性,并且无法支持裸机服务。

阿里云造第三代神龙,性能暴涨160%,号称算力全球最强

为了解决这个问题,阿里巴巴云在2017年推出了首款自主开发的龙云服务器,采用软硬件虚拟化架构解决虚拟化性能损失问题。

“我们不再使用kvm和xen等传统虚拟化体系结构,而是开发了一种非常轻量级的dragonfly hypervisor(Dragon Architecture),它不仅占用的资源更少,而且提高了虚拟化的效率。计算的抖动可以达到百万分之一,在行业中处于领先水平。”张贤涛介绍道。

阿里云造第三代神龙,性能暴涨160%,号称算力全球最强

截至2019年9月,阿里巴巴云宣布推出第三代自主开发的神龙架构,完全支持ecs虚拟机、裸机、云原生容器等。,运行在整个iaas计算平台上,并将iops和pps的性能提高了5倍。在阿里巴巴内部,神龙架构已经大规模应用于淘宝、天猫、菜鸟等业务,解决了峰值性能的瓶颈问题。

阿里云造第三代神龙,性能暴涨160%,号称算力全球最强

虽然神龙的履约担保增加了160%,但张宪涛表示,成本和价格都有所下降。他指出,同样是8核32gb的例子,阿里巴巴云的性能可能比其他云高出50%、60%,有的甚至翻倍。“客户关心的是性价比。我们的定价本身相对较低,但就性能而言,我们要高得多。总体而言,我们在性价比方面的竞争优势相当明显。”

阿里云造第三代神龙,性能暴涨160%,号称算力全球最强

同时,神龙建筑的演变也面临着不断的挑战。在谈到神龙建筑的研发过程时,张贤涛提到,通常需要半年或九个月的时间来保证稳定性。“在第三代神龙架构的研发过程中,如何实现芯片随用户周期的迭代,并在快速互联网迭代模式下保证稳定的性能,是我们面临的一大挑战。”

阿里云造第三代神龙,性能暴涨160%,号称算力全球最强

“其他公司也面临同样的问题。一些公司已经尝试了两三代,但还没有成功。制作模型很简单,但如果它真的用于生产环境,特别是短期内的大规模应用,我相信这一挑战将非常大。”

张贤涛认为,未来神龙建筑主要有三个方向:一是存储性能有待进一步提高;二是可信计算领域加密算法的增强;第三,结合半导体芯片领域的研究。

灵活计算服务是云计算最基础和核心的产品,也是阿里巴巴云在2010年5月10日发布的第一个商业产品。

从最早的单一通用计算,到推出异构计算和高性能计算产品,再到今天的一系列新产品,阿里巴巴云灵活计算已经覆盖了互联网、金融、零售等行业近300个场景,支持各种流量高峰,如12306春运高峰、微博热点流量飙升、2小时内扩展10万个云服务器。没有阿里巴巴云开发的神龙弹性裸机服务器的支持,上述场景的最终性能是无法实现的。

阿里云造第三代神龙,性能暴涨160%,号称算力全球最强

张贤涛表示,2016年,当阿里巴巴的经济步入云端时,对其产品提出了更高的能力要求。在评估了行业同行和设备制造商的芯片后,该团队发现现有产品无法满足业务需求。“因为他们的设计仍然是传统的x86体系结构,而我们今天的神龙体系结构的外部i/o和一些计算优化还没有被其他制造商考虑过。”

阿里云造第三代神龙,性能暴涨160%,号称算力全球最强

阿里巴巴云神龙计算平台负责人蒋林泉曾经指出,很多云厂商选择走“捷径”,直接使用开源技术来搭建平台,似乎“短、平、快”,达到了快速上线的效果。然而,过度依赖开源技术意味着企业缺乏自主进化的能力。阿里巴巴云选择了自主研究的道路,包括自主研究的天妃、神龙等。,并将自我研究的重点转移到软件和硬件的集成上,逐渐与其他制造商拉开距离。

阿里云造第三代神龙,性能暴涨160%,号称算力全球最强

张贤涛表示,第三代神龙架构涉及的所有环节,无论是存储还是网络,都被阿里巴巴云开发的神龙芯片加速,这始终带来了终极的性能提升。

“我们已经实现了2400万pps(云计算参数,指每秒的包数),这至少是业内其他制造商的最佳水平的三倍。这种优势实际上是神龙芯片带来的。”此外,存储性能和低延迟也得益于神龙芯片的加速能力。

他进一步提到:“我们没有在2016年收购平投兄弟。如果我们自己做soc(片上系统)和asic(专用集成电路),需要2-3年的时间来开发ip的各个方面,我们客户的业务等不及了,所以我们用fpga(半定制电路)制作了第一代神龙芯片。今天,我们有一个平头的兄弟,所以我们将与平头一起在asic和soc的联合方面做一些开发和尝试。"

阿里云造第三代神龙,性能暴涨160%,号称算力全球最强

张贤涛认为,阿里自主开发的ai芯片Cold Light 800是软件协同设计的典范。“事实证明,我们只能使用gpu,或者并行计算处理器进行通用计算。然而,npu问世后,其推理能力却高于传统的gpu。很多时候,这也是软硬件协同设计带来的一些优势。”

来源:环球邮报中文网

标题:阿里云造第三代神龙,性能暴涨160%,号称算力全球最强

地址:http://www.jiazhougroup.cn/a/ybxw/21534.html