英伟达400亿美元收购ARM受阻,不妨考虑VMware?

原标题:英伟达400亿美元收购ARM受阻,不妨考虑VMware? 本文来自微信公众号:CSDN(ID:CSDNnews),作者:马超,题图来自:视觉中国 目前半导体行业的发展可以用冰火两重天来形容,传统的桌面及移动SOC(System on a Chip,系统级芯片)市场已经基本停止增长,而云计算成了各大巨头的兵家必争之地。 在行业整体突飞猛进的基础上,技术之魂帕特·基辛格从VMware回归后,英特尔便开始了史无前例的颠覆式革新,最近他们展示的全新一代计算结构Alder Lake,为x86的未来创新带来了全新的性能分配方案,也让英特尔彻底摘掉了“牙膏厂”的帽子。 另外一家半导体公司英伟达,在今年新品发布会上,也如期拿出了首款CPU芯片Grace,剑指AI云,不过英伟达早于去年欲收购ARM的计划如今受阻,一定程度上也影响了其在云计算领域的脚步。 个人认为英伟达应该对于帕特·基辛格的老东家VMware给予更多的关注,一旦他们用400亿美元收购ARM的交易被监管机构叫停,此时如果能将VMware收入囊中也很可能帮助他们在云数据中心方面变得更强。 毕竟放眼英特尔与英伟达的双“英”大战中,先搞定虚拟化平台的一方将获得极大的竞争优势。 一、Alder Lake vs. Grace,巨头也能起舞 在竞争中,新品的诞生明显都从竞品身上得到了很多有益的灵感,比如Alder Lake本次最大的升级就是引入了能效核与性能核的设计,虽然能效核与性能核这个概念听起来比较陌生,但从本质上看这个概念与ARM的big.LITTLE大小核架构没有什么大的差别,设计思路都是让小核去处理那些对算力要求比较低的问题,大核则专注于处理计算密集型的任务。 不过大小核技术在移动SOC的应用非常容易实现,在手机熄屏待机时用小核工作,而当用户进行游戏或者观看视频时则启动大核,两核中核心各负责一摊,界限分明井水不犯河水,应用效果很好。 但是大小核技术之前一直被认为不适合于云计算场景。由于绝大部分云场景都依赖于SIMD单指令多数据的硬件加速技术,而一般来说传统的小核都不支持AVX512等SIMD指令集,这也让大核在云计算的应用中几乎要全程待命,没有时间休息,所以英特尔在Alder Lake之前一般使用睿频技术也就是通过调节主频来进行能耗的优化。 但这次不一样了,英特尔对小核的优化简直令人瞠目结舌,Alder Lake的小核拥有5000个条目的分支目标缓存区,实现更准确的分支预测;并将指令缓存扩充到64K;簇乱序执行解码器,可在保持能效的同时,每周期解码多达6条指令,直接支持了AVX指令集,并且还能在性能保持一样的情况下,将能耗控制在前代的40%,这样也就让小核几乎可以应对绝大多数云场景,只有少量计算密度极大的场景下才需要大核下场参与,做到这么极致的程度引入大小核的设计完全没问题。 由于Grace和M1都是基于ARM架构的处理器,我们明显能从英伟达的Grace身上看到苹果M1的影子,由于ARM属于RISC精简指令集阵营,指令都是定长的,这使得ARM处理器在指令解码等方面天然比x86更具优势,x86的处理器做到6路解码基本就已经到了能耗极限,但是ARM处理器则可以轻松达到这一目标。根据黄仁勋在大会上的介绍,Grace最大的创新点在于把CPU与GPU之间的通信速度提升了近10倍,“这是一万名工程人员历经几年的研发成果,旨在满足当前世界最先进应用程序的计算需求,其具备的计算性能和吞吐速率是以往任何架构所无法比拟的。” 类似于DMA控制器在磁盘与内存之间搭建了一条快速通道一样,Grace体系中GPU核心与CPU核心之间的通信不需要CPU的调度,也不需要占用数据总线的带宽,之前CPU必须将数据从其内存的区域复制到GPU使用的区域,而在Grace的加持下,CPU只需要告诉GPU在内存的某位置有30MB的向量数据,然后就可以去做其它事了,GPU则可以通过Grace复制通道迅速开始计算任务。 这方面的威力我们可以从苹果的正确示范中得到启示,在苹果M1中显卡与内存加在一起只有16G,对比上一代MAC PRO内存128G,光是显存都有16G,不过搭载M1的入门版MAC在进行图像处理等需要CPU与GPU进行协同的运算任务时,至少比上一代顶配的MAC性能高出近一倍。其中的秘决就是将内存与显卡进行统一管理,从而大大提高了CPU与GPU的通信效率,因此英伟达的技术路线肯定也是非常有道理的。 但是这种颠覆式的革新,背后也有隐忧,想在云计算的领域立足恐怕还有很长的路要走。 二、想腾云,虚拟化是必须迈过去的坎 无论是Grace还是Alder Lake想在云计算领域有所作为都必须要迈过虚拟化的坎,比如Grace打通内存、显存的方案,在云计算这种多租户共存的场景下困难很多,在内存、缓存共享的方案下,CPU和GPU必须轮流访问主存储器,这就意味着他们要争夺数据总线的使用权,那么不同租户之间的界限如何划分就成了一个很值得讨论的问题。 在实践中单独一个GPU按照不同租户划分虚拟化能力的方案,都还不完全成熟,而如何将Grace这样的CPU与GPU的融合计算处理器进行虚拟化更不会是一个容易解答的问题。 Alder Lake大小核也是同样的问题,假如用户购买了一台1核的云主机,那么到底买的是大核还是小核呢?如果是大小核的综合体那么如何进行调度呢?为了解决调度难题,Intel在Alder Lake处理器中引入了Thread Director技术,Alder Lake处理器中集成了一个专用的MCU,用来监控当前处理器内核的运行情况,能够监测到每个线程的特征,比如它运行什么样的指令集、它的性能需求如何等等。 在收集完信息之后,它会将收集到的信息反馈给操作系统,而操作将会把这些信息与自己线程调度器相结合,判断是否应该将线程转移到别的核心上。如果与操作系统结合的好,那么一轮信息采集工作仅需要30微秒就能完成,而传统的调度器可能需要100多毫秒才能判断出结论,不过明显可以看到这是一项需要与操作系统进行深度结合的技术,没有软件方面支持,Thread Director发挥不出来效果。从目前的情况看Thread Director已经与Windows 11进行了结合优化,但是在云服务器领域Windows的份额几乎可以忽略不计,而Thread Director如何与虚拟化平台结合以实现资源的隔离,我目前还没有看到任何有关的动作。 对于打造软、硬结合IT生态的重要性,英伟达和英特尔都有很深刻的认识,比如英伟达还与Grace同时发布了Transformers框架Megatron、合成模型Omniverse、药物研发加速库Clara Discovery模型等软件产品,这些技术与英伟达的CUDA联合使用效果是非常好的,当然可能也是因为英伟达的产品全线都太香了,后来还引发了一个真假老黄的史诗级乌龙。 英特尔这次也适时推出了oneAPI的整合框架,基于oneAPI开发软件,无需考虑是CPU还是GPU还是TPU的问题,oneAPI会自动让你的代码在最适合的设备上运行。 但是在云计算虚拟化软件的生态方面VMware是当之无愧的王者,他们的ESXi/vSphere技术栈在管理的虚拟化CPU和GPU融合计算平台方面,与英特尔和英伟达都有着巨大的互补性。在云计算领域中“数千万台”服务器将在云端或者边缘运行人工智能,并将通过GPU加速,这是一个上百亿美元的巨大市场,而VMware以其特有虚拟化软件优势,能否成为巨头们下一个竞相收购的对象值得我们观察。 本文来自微信公众号:CSDN(ID:CSDNnews),作者:马超

Read More →

Nvidia联手VMware发布全新AI平台 实现横跨企业的人工智能

Nvidia与VMware长达一年的合作终于取得了成果,近日正式推出了Nvidia AI Enterprise 平台,这是一套AI工具和框架,可以虚拟化AI工作负载并在Nvidia认证的服务器系统上运行这些负载。 Nvidia表示,Nvidia AI Enterprise将让企业能够运行新型AI工作负载,并通过单一平台对其进行管理,此外还可以让企业在靠近数据所在位置的地方部署支持AI的基础设施,无论是在云中、数据中心还是网络边缘。 Nvidia AI Enterprise的关键组件之一是Nvidia GPU Cloud,这是一个针对深度学习和高性能计算的优化软件工具目录,依赖Nvidia GPU的强大性能。Nvidia解释说,通过将这些工具与VMware vSphere集成,企业可以更轻松地在现有服务器上部署AI工作负载。 Nvidia企业计算主管Manuvir Das在新闻简报会上表示,Nvidia AI Enterprise的推出是AI新篇章的开始。他说,现在全球数以千计的企业采用了Nvidia软件,他们利用主流服务器在VMware上运行工作负载。以前,AI工作负载需要专门的基础设施,而现在这个情况完全改变了。 Das说:“Nvidia AI已经面向所有企业准备就绪了。现在,所有企业功能都被融入了AI。” Nvidia表示,Nvidia AI Enterprise平台可以在VMware vSphere上运行AI工作负载,运行在来自戴尔、HPE、浪潮、联想、技嘉和超微销售的认证系统上。这些厂商售卖的系统采用了一系列Nvidia GPU,包括最先进的A100芯片,以及A30、A40、A10和T4处理器。 此外戴尔近日也宣布推出了Dell EMC VxRail,这是第一款被认证为Nvidia-Certified System for Nvidia AI的超融合平台。 Das表示,Nvidia已经与Domino Data Lab展开进一步合作,以验证Nvidia AI Enterprise 上运行的Domino Enterprise MLOps平台,让企业可以选择将一种更有条理化的方法集成可以直接调用到VMware中的机器学习中。 Domino数据实验室首席执行官Nick Elprin解释说:“我们正在深化我们的产品集成,让Domino Enterprise MLOps平台能够支持更广泛的Nvidia GPU,并针对Nvidia AI Enterprise对其进行验证。这款新产品将帮助数十万企业大规模加速数据科学。” Nvidia表示,来自汽车、教育、金融、医疗、制造和高科技等行业的数十家企业此前已经在使用Nvidia Enterprise AI平台了,他们将成为围绕对话式AI、计算机视觉、推荐系统打造和部署应用的早期客户。 比萨大学(University of Pisa)正在使用该平台支持跨多个学科的高性能计算和AI训练以推进科学研究。该大学表示,Nvidia Enterprise AI平台让这些应用更易于部署和管理,从而为那些依赖数据分析和深度学习的研究人员和学生提供支持。 […]

Read More →

Hello world!

Welcome to WordPress. This is your first post. Edit or delete it, then start writing!

Read More →