超级计算机发展轶事(202x)
2009-10-30 21:46:48 阿炯

本文主要用于记录超级计算机发展过程中的可为里程碑的事记,截止到2030年前。

中国成功研制出千万亿次超级计算机
基于ARM架构的超级计算机夺得TOP500首名
英特尔超级计算机Aurora在阿拉贡国家实验室完成安装调试


中国成功研制出千万亿次超级计算机


人民网科技长沙站2009年10月下旬电(记者王伟建、赵永新),我国首台千万亿次超级计算机系统——"天河一号"由国防科学技术大学研制成功。在今天中国高性能计算机TOP100组织公布的2009年度前100强排名中,天河一号高居榜首。

有关专家认为,“天河一号”的诞生,是我国战略高技术和大型基础科技装备研制领域取得的又一重大创新成果,实现了我国自主研制超级计算机能力从百万亿次到千万亿次的跨越,使我国成为继美国之后世界上第二个能够研制千万亿次超级计算机系统的国家。

“天河一号”在科技部的领导支持下,通过与天津市滨海新区密切合作,由国防科大计算机学院承担的国家863计划“千万亿次高效能计算机系统研制”课题的重大成果。该系统突破了多阵列可配置协同并行体系结构、高速率可扩展互连通信、高效异构协同计算、基于隔离的安全控制、虚拟化的网络计算支撑、多层次的大规模系统容错、系统能耗综合控制等一系列关键技术,系统峰值性能达每秒1206万亿次双精度浮点运算,内存总容量98TB,点点通信带宽每秒40Gb,共享磁盘容量为1PB,具有高性能、高能效、高安全和易使用等显著特点,综合技术水平进入世界前列。

超级计算机是世界高新技术领域的战略制高点,是体现科技竞争力和综合国力的重要标志。各大国均将其视为国家科技创新的重要基础设施,投入巨资进行研制开发。我国首台千万亿次超级计算机系统的成功问世,是我国高性能计算机技术发展的又一重大突破,是国家和军队信息化建设的又一重要成果,为解决我国经济、科技等领域重大挑战性问题提供了重要手段,对提升综合国力具有重要战略意义。“天河一号”适用于大规模科学与工程计算。国防科大正与天津滨海新区密切合作,将 “天河一号”广泛应用于石油勘探数据处理、生物医药研究、航空航天装备研制、资源勘测和卫星遥感数据处理、金融工程数据分析、气象预报、气候预测、海洋环境数值模拟、短临地震预报、新材料开发和设计、土木工程设计、基础科学理论计算等方面。

据介绍,"天河一号"将作为天津滨海新区和国防科大共同建设的国家超级计算天津中心的业务主机,面向社会开放,实现资源共享,为国内外提供超级计算服务,同时带动高科技服务产业和高端信息产业发展,着力打造高新科技服务、产业技术创新、人才聚集培养三个平台,为经济、社会发展提供高科技支撑。

国防科大计算机学院是我国高性能计算机研制的重要基地,被中央军委授予“科技攻关先锋”荣誉称号。他们始终紧贴国家和军队重大战略需求,研制成功的“银河” 系列高性能计算机在国家和国防建设的关键领域发挥了重要作用,为强军兴国作出了突出贡献。参加研制的广大科技人员表示,要进一步深入学习胡锦涛总书记关于提高自主创新能力,建设创新型国家的一系列重要论述,以攀登世界科技高峰的信心和勇气,大力弘扬“银河精神”,团结协作,顽强拼搏,在更高起点上推进我国高性能计算机事业的创新发展。

英特尔超级计算机Aurora在阿拉贡国家实验室完成安装调试

2023年6月25日消息,英特尔近日宣布,超级计算机 Aurora 已在阿拉贡国家实验室完成安装工作,其可提供 2 Exaflops 的 FP64 算力,将成为全球首台每秒计算 200 亿亿次的超级计算机,拥有 20.42PB 内存,63744 个GPU。

在超算领域,人类已经开始进入到百亿亿次计算领域,这其中当然得益于近年来CPU以及GPU等处理器性能的提升,不过想要实现百亿亿次计算也不是一件容易的事情,需要厂商与科研机构甚至整个国家的通力合作。目前英特尔就已经宣布与美国能源部阿拉贡国家实验室合作,成功部署“Aurora”超算,可以将算力提升至200亿亿次,当然也将超越老对手AMD,重登超算第一的宝座。


目前的世界第一超算为“Frontier”,基于AMD EPYC 7A53 64核心处理器以及MI250X加速卡打造,而这一次即将登顶的“Aurora”则采用了Intel的Xe HPC GPU以及Sapphire Rapids架构的至强MAX CPU,每个节点包含两颗Sapphire Rapids CPU以及六个Xe HPC GPU,整个超算由10624台刀片服务器组成,相当于63744颗CPU处理器以及21248个GPU加速器,当然体积也是相当地庞大,采用了两个篮球场的面积。


Aurora 由英特尔 Xeon CPU Max 和 Xeon GPU Max 系列芯片提供支持,与最初的 1 Exaflop 目标相比已升级为 2 Exaflop 算力,从而使它与基于 AMD 芯片的 Frontier 超级计算机相提并论(后者是目前地球上已公布的最强超算)


英特尔透露,Aurora 超级计算机总共 10624 个节点,其中包括基于 Sapphire Rapids-SP 系列的 21248 个 Xeon CPU 和基于 Ponte Vecchio 设计的 63744 个 GPU,该系统可提供 2.12 PB/s 的峰值带宽和 0.69 PB/s 的峰值二分带宽。


Aurora 超级计算机配备了高达 20.42 PB 的内存。其中包括 10.9 PB 的 DDR5 DRAM、1.36 PB 的 CPU HBM 和 8.16 PB 的 GPU HBM。也就是说,这套系统 DRAM 达到了 5.95PB/s 的峰值带宽,CPU HBM 可提供 30.5PB/s 的峰值带宽,GPU HBM 则为 208.9PB/s 的峰值带宽。在存储方面,该系统配备了 230 PB 的 DAOS 容量,以 31 TB / s 的峰值带宽运行,总共配置了 1024 个节点。


英特尔公司副总裁兼超算主管 Jeff McVeigh 指出,Aurora 是英特尔 Max 系列 GPU 的首次部署,这不仅是世界上最大的基于 Xeon Max CPU 的系统,也是世界上最大的 GPU 集群。


为了让拥有如此算力的超算能够快速地运输数据,整个超算拥有19.9PB容量的内存,8.16PB的GPU显存,以及CPU内置的1.36PB的HBM2E显存,可以说能塞的都已经塞进去了。而存储阵列则采用了1024个全NAND闪存阵列,总容量达到了230PB,速度更是达到了31TB/s,十分地恐怖。英特尔表示这套超算将会用于核爆、天气系统、医疗、动力学模拟等领域,都是超大尺度的模拟与计算,自然需要强大的算力提供硬件保证。