智东西12月18日音讯,今天,在光合安排2025AI立异大会(HAIC2025)上,中科曙光发布并展出了全球抢先的
scaleX万卡超集群由16个scaleX640超节点经过全栈自主研发的原生RDMA高速网络互连而成,部分技能与才能已逾越海外同种类型的产品研发道路路程节点,其中心技能优势如下:
全球创始单机柜级640卡超节点。scaleX万卡超集群由16个曙光scaleX640超节点经过scaleFabric高速网络互连而成,可完成10240块AI加快卡布置,总算力规划超5EFlops。作为国际首个单机柜级640卡超节点,scaleX640选用超高密度刀片、浸没相变液冷等技能,将单机柜算力密度进步20倍,PUE值低至1.04。
自主研发原生RDMA高速网络。曙光scaleFabric网络,根据国内首款400G类InfiniBand的原生RDMA网卡与交流芯片,可完成400Gb/s超高带宽、低于1微秒端侧通讯推迟,超节点间的通讯功能到达业界抢先水平,充沛开释万卡超集群算力,并可将超集群规划轻松扩展至10万卡以上,比较传统IB网络进步2.33倍,一起网络整体本钱下降30%。
存、算、传紧耦合深度优化。经过“超级地道”、AI数据加快等规划,scaleX完成从芯片级、体系级到使用级的三级数据传输协同优化,使存力渠道高效应对大模型练习时万卡并发读写带宽极致需求应战,进步高通量AI推理时的响应速度与成果精准度,并可将AI加快卡资源利用率进步55%。
超集群数字孪生与智能调度。经过物理集群数字孪生,完成毛病定位、修正等全流程可视化智能办理;智能化运维渠道可支撑集群长时间可用性达99.99%;智能调度引擎可办理万级节点、服务十万级用户,支撑每秒万级作业调度。
scaleX万卡超集群可支撑多品牌加快卡以及干流核算生态,并完成400+干流大模型、国际模型等适配优化。在实践使用中,该超集群可掩盖大模型练习、金融风控、地质动力勘探及科学智能等多元场景。
AI开展对底层算力提出了史无前例的应战,功能墙、生态墙的限制杰出,高端算力供应缺乏、软硬件适配不畅、技能标准纷歧、使用本钱昂扬已成为广阔中小企业开展的明显壁垒。
此次,scaleX万卡超集群部分技能与才能已逾越海外同类产品研发道路年路程节点。中科曙光高档副总裁李斌谈道,面临人工智能基础设施对功能、功率、可靠性、可扩展性等方面的极致需求,scaleX万卡超集群在超节点架构、高速互连网络、存储功能优化、体系办理调度等方面完成了多项立异打破。这也标志着我国在构建国际一流超大规划智算基础设施上获得要害打破。