当英特尔不再“一根筋”:巨变时代的数据中心生存法则
来源: 老石谈芯
视频: YouTube
时代的洪流:为什么“瑞士军刀”不再锋利?
曾经,在数据中心服务器CPU领域,英特尔(Intel)是无可争议的霸主,占据着高达99%的市场份额。那时的英特尔奉行着一种简单粗暴却又高效的哲学——“一颗至强(Xeon)走天下”。无论是个人博客网站,还是计算黑洞演化的超级计算机,都指望一颗通用芯片解决所有问题,仿佛CPU界的“瑞士军刀”,锋利而万能。
然而,世界变了,数据中心的需求也随之分裂,形成了两个看似截然相反的极端。一边是追求极致密度与效率的云原生应用,它们需要芯片在有限的功耗和空间内,尽可能多地堆叠核心,以应对成千上万同时运行的小任务。另一边则是AI和高性能计算的“巨兽”领域,特别是近年来AI推理需求的爆发式增长,以及科学计算等任务,它们对单核性能、超大缓存以及极速内存带宽有着近乎苛刻的要求。
当需求走向两极,一把通用的“瑞士军刀”自然难以同时满足两种极端场景。一个塞满无数小核心的设计,单核性能必然受限;而一个只有少数猛兽级核心的芯片,密度又无法提升。这道难题,让英特尔不得不重新审视自己的“一根筋”策略。
破而后立:至强六的“双雄并起”
正是基于对市场变化的深刻洞察,英特尔终于做出了一个“违背祖宗”的决定——将“至强”这块金字招牌一分为二,诞生了全新的“至强六”(Xeon 6)系列,形成了“两头堵”的创新策略。
其中一端,是我们今天的主角,代号为“Granite Rapids”的性能核(P-Core),它犹如“雷神之锤”,为极致性能而生。它追求最强的单核表现、最大的缓存,并集成了各种黑科技加速器。阿里云最新一代的服务器,正是采用了这一性能猛兽,不仅在ECS(弹性计算服务)中广泛应用,在存储和数据库等核心业务场景也深度融合,显著提升了产品性能。
另一端,则是能效核(E-Core),它更像一把“手术刀”,为密度和效率而生,专门用于处理那些云原生的轻量级任务。
至强六“双雄并起”的根本性转变为英特尔带来了质的飞跃。这不仅是放弃了“一招鲜吃遍天”的策略,转而为专业领域打造专用工具,更深层的意义在于英特尔敢于打破固守了几十年的旧秩序。唯有打破旧秩序,才能建立新秩序;唯有看到变化、理解变化、拥抱变化,才是英特尔重回巅峰的关键。
性能核的暴力美学:四大维度解析“雷神之锤”
为了更深入地理解至强六性能核的“暴力”,我们可以从封装与工艺、内核与缓存、IO接口以及加速器设计四个方面进行剖析。
封装与工艺:从“大披萨”到“乐高积木”的飞跃
传统上,英特尔喜欢制造一整块巨大的单片式(Monolithic)芯片,性能绝佳,功耗和延迟表现也十分出色。但随着半导体制造工艺的日益复杂,制造完美无瑕的巨型芯片变得越来越困难,良品率极低,如同烘烤一个稍有瑕疵就可能报废的巨型披萨。
如今,至强六性能核采用了先进的小芯片(chiplets)技术,如同将一个大披萨分解成一片一片制作,然后再拼凑起来。以阿里云采购的120核定制版至强六为例,它包含三个计算小芯片位于中间,以及两个IO小芯片位于两边,共同构成了一颗超大芯片。计算小芯片采用英特尔自家的Intel 3工艺,这是英特尔首次应用EUV(极紫外光刻)技术的里程碑式工艺,对性能和能效要求极高。而IO小芯片则集成了内存控制器、PCIe控制器等功能,更注重稳定性,因此采用了更成熟的Intel 7工艺。
通过多芯片互联桥接技术(EMIB),这些小芯片能够实现无缝连接,其带宽和延迟表现甚至接近于单颗大芯片,使得多个小芯片拼凑起来的性能表现毫不逊色。
内核与缓存:喂饱“壮汉”的核心
小芯片组合的先进封装技术带来了疯狂堆料的可能性,核心数量直接突破百位。阿里云定制版达到了120核,而至强六最高可支持128个核心,相比上一代直接翻倍。然而,光有核心还不够,关键在于如何“喂饱”它们。这就需要巨大的缓存。
至强六性能核将每个内核的二级缓存提升到2MB,三级缓存总容量更是达到惊人的504MB,比上一代提升了4.5倍。这就像给大厨准备了一个与超市大小相当的冰箱,所有食材都触手可及,大大减少了数据读取的延迟。尽管友商可能塞入了更多的核心,但英特尔为每个核心分配了更多的缓存资源,确保了每个核心都能成为“吃得饱饱的壮汉”,这对于数据库这类需要频繁随机读取数据的应用来说,性能提升效果是立竿见影的。
IO接口:数据高速公路的拓展与革新
为了让计算单元吃饱喝足,IO单元也必须跟上,其作用是尽可能快地将尽可能多的数据喂给计算单元。至强六将内存通道从8通道的DDR5升级到了12通道,总内存带宽暴涨70%,并且支持更快的MRDIMM内存,带宽可再提升37%,为未来的AI大模型做好了准备。
更引人注目的是,至强六是市面上第一批全面支持CXL 2.0的CPU。CXL(Compute Express Link)可以理解为一个通用的超高速接口,能够连接任何设备。它最强大的功能在于内存池化,允许构建一个巨大的内存共享池,数据中心内的任何服务器在内存不足时都可以借用,从而彻底消除了内存插槽空置造成的资源浪费,这将对数据中心的灵活性产生革命性影响。CXL作为英特尔主推的技术标准,已逐渐成为主流,未来发展潜力巨大。
加速器设计:芯片内的“专家小团队”
至强六的另一大亮点是在芯片内集成了许多专门处理特定任务的“小专家”,即加速器。它们将CPU内核从繁重的特定任务中解放出来,同时兼顾能效。
其中两个加速器特点鲜明:
AMX(高级矩阵扩展,Advanced Matrix Extensions):专门为AI算力中的矩阵运算而设计,而矩阵运算正是现代AI的灵魂。这意味着许多AI推理任务可以直接由至强六高效完成,在很多场景下甚至无需昂贵且耗电的GPU。在与阿里云的合作中,通过AMX加速,AI推理性能可提升30%到50%,例如在金融风控领域,AMA蚂蚁金服就利用至强六的AMX加速,在G9i实例上运行200亿参数的金融大模型和视觉识别模型,推理性能提升2.3倍,成本却降低了72%。
QAT(快速辅助技术,QuickAssist Technology):专门负责数据压缩和加密这些“脏活累活”,让CPU核心能够专注于处理核心业务。这些都是英特尔多代至强芯片积累下来的功能,通过与客户的紧密合作和软件调优,确保了其在实际应用中的高效性。
“算力即服务”:云与芯的深度融合
有了如此强大的至强六,如何将其转化为像电力一样随开随用的资源,便是阿里云的工作。他们通过一系列创新技术,将这些性能猛兽转化为触手可及的云服务:
首先,阿里云采用CIPU(定制芯片)接管了所有虚拟化网络等杂活,这将通常会消耗普通CPU 20%到30%的性能释放出来,让至强六能够100%火力全开地为应用服务。
其次,阿里云的资源调度系统——“飞天”,作为超大规模分布式云操作系统,运行在这些硬件之上,负责整个云平台的资源调度和管理。基于这些软硬件技术,阿里云构建了各种各样的云计算实例,例如通用的G9i实例以及此次新发布的内存增强型实例8G1e.4,提供16TB的超大内存,高效运行SP HANA这类内存密集型工作负载。此外,还有面向高性能计算(HPC)的实例,以满足仿真(simulation)和EDA(电子设计自动化)等对单核频率要求更高的工作负载。
在不到100天的时间里,阿里云的ECS实例就吸引了超过1万个客户,之后仅用50天客户数便突破2万。这得益于英特尔代系之间生态的完善,实现了无缝迁移,以及阿里云产品定义以客户价值为导向的理念。CPU在AI推理领域的应用也展现出巨大潜力,对于聊天机器人、推荐系统、文档摘要、欺诈检测等AI应用,当对算力需求不过于极端,且性价比考量更为重要时,集成专用AI硬件的CPU正成为比GPU更具性价比的选择。云的加持进一步降低了AI的门槛。
变革的涟漪:技术进步的普惠与协同
或许有人会问,这些高端服务器芯片与普通消费者有何关系?事实上,在数据中心这个高科技链条中淬炼出的技术,最终都会下放到我们日常使用的设备上。你使用的语音助手、AI照片识别、智能推荐系统,手机芯片中的NPU(神经网络处理单元),电脑中的统一内存架构等,这些概念最早都是为了解决数据中心的大问题而诞生的。
无论是英特尔和英伟达(NVIDIA)的世纪握手,还是英特尔和阿里云之间长达15年的深度协同,都说明了一个道理:技术的进步不再是某个公司的“独角戏”,而是整个产业链深度融合、协同创新的结果。正如有人所说,唯一不变的只有变化,而唯有技术的变化以及人与人之间的合作才会一直传承。英特尔确实正在改变,如果这就是改变带来的结果,那么我们有理由对此充满期待。
本来整理自“老石谈芯”的视频,提示词可见宝玉的分享。