[ad_1]
自从 Seymour Cray 开发出被广泛认为是世界上第一台超级计算机以来的几十年里, 疾病预防控制中心 6600 (在新标签中打开),在高性能计算 (HPC) 社区中进行了一场军备竞赛。 目标:以任何方式、不惜一切代价提高性能。
在计算、存储、网络和软件领域进步的推动下,自 1964 年 CDC 6600 面世以来,领先系统的性能从每秒数百万次浮点运算 (megaFLOPS) 提高了 1 万亿倍。 quintillions (exaFLOPS)。
目前的王冠持有者,一台巨大的美国超级计算机,名为 边境,能够通过高性能 Linpack (HPL) 基准测试达到 1.102 exaFLOPS。 但更强大的机器被怀疑是 在其他地方运行,闭门造车。
所谓的百亿亿级超级计算机的到来预计将惠及几乎所有领域——从科学到网络安全、医疗保健到金融——并为强大的新人工智能模型奠定基础,否则这些模型可能需要数年时间才能训练完成。
然而,这种速度的提高是有代价的:能源消耗。 全速前进,前沿 消耗高达40MW (在新标签中打开) 功率,大约相当于 4000 万 台式电脑.
超级计算一直致力于突破可能的界限。 但随着最小化排放的需求变得越来越清晰,能源价格继续飙升,HPC 行业将不得不重新评估其最初的指导原则是否仍然值得遵循。
性能与效率
处于这一问题前沿的一个组织是剑桥大学,该大学与戴尔技术公司合作开发了多台超级计算机,其电源效率处于设计的前沿。
这 威尔克斯3 (在新标签中打开),例如,仅位于第 100 位 整体表现图表 (在新标签中打开)但排在第三位 绿色500 (在新标签中打开),基于每瓦能源消耗的性能的 HPC 系统排名。
在与 技术雷达专业版剑桥大学研究计算服务部主任 Paul Calleja 博士解释说,该机构更关心的是制造高生产力和高效的机器,而不是极其强大的机器。
“我们对大型系统并不真正感兴趣,因为它们是高度具体的单点解决方案。 但其中部署的技术适用范围更广,将使系统运行速度慢一个数量级,以更具成本和能源效率的方式运行,”Calleja 博士说。
“这样一来,你就可以让更多人获得计算的民主化。 我们有兴趣使用为那些大时代系统设计的技术来为更广泛的受众创造更具可持续性的超级计算机。”
Calleja 博士还预测,在未来几年中,HPC 领域和更广泛的数据中心社区对能源效率的推动将越来越激烈,据我们所知,其中能源消耗占成本的 90% 以上。
最近与乌克兰战争相关的能源价格波动也将使运行超级计算机的成本大大增加,尤其是在百亿亿次计算的背景下,进一步说明了每瓦性能的重要性。
在 Wilkes3 的背景下,该大学发现有许多优化有助于提高效率水平。 例如,通过根据工作负载降低某些组件运行的时钟速度,团队能够实现 20-30% 的能耗降低。
“在特定的架构系列中,时钟速度与性能呈线性关系,但与功耗呈平方关系。 这就是杀手,”Calleja 博士解释道。
“降低时钟速度以比性能更快的速度降低功耗,但也延长了完成工作所需的时间。 因此,我们应该关注的不是运行期间的功耗,而是每个工作所消耗的真正能量。 有一个甜蜜的地方。”
软件为王
除了针对特定工作负载微调硬件配置外,在存储和网络环境以及冷却和机架设计等连接学科中,还需要在其他地方进行许多优化。
然而,当被问及在寻求提高能效方面他希望看到分配的具体资源时,Calleja 博士解释说,重点应该首先放在软件上。
“硬件不是问题,关键在于应用程序的效率。 这将是前进的主要瓶颈,”他说。 “今天的百亿亿次系统基于 图形处理器 架构和可以在 GPU 系统中大规模高效运行的应用程序数量很少。”
“要真正利用当今的技术,我们需要将大量精力放在应用程序开发上。 开发生命周期长达数十年; 今天使用的软件是在 20 到 30 年前开发的,当您拥有需要重新架构的如此长寿的代码时,这很困难。”
不过,问题在于 HPC 行业还没有养成以软件为先的思维习惯。 从历史上看,硬件受到了更多的关注,因为用 Calleja 博士的话来说,“这很容易; 您只需购买更快的芯片。 你不必想得聪明”。
“虽然我们有摩尔定律,处理器性能每 18 个月翻一番,但您无需做任何事情 [on a software level] 以提高性能。 但那些日子已经一去不复返了。 现在,如果我们想要进步,我们必须回去重新设计软件。”
在这方面,Calleja 博士对英特尔表示赞赏。 作为 服务器 从供应商的角度来看,硬件空间变得更加多样化(在大多数方面,这是一个积极的发展),应用程序兼容性有可能成为一个问题,但英特尔正在研究解决方案。
“我看到英特尔的一个与众不同之处在于,它投入了大量资金 [of both funds and time] 进入 一个API 生态系统,用于开发跨硅类型的代码可移植性。 我们需要的正是这类工具链,让未来的应用能够利用新兴芯片,”他指出。
另外,Calleja 博士呼吁更加关注“科学需求”。 很多时候,事情“翻译出错”,导致硬件和软件架构与最终用户的实际需求不一致。
他说,一种更有活力的跨行业合作方法将创造一个由用户、服务提供商和供应商组成的“良性循环”,这将转化为双方的绩效带来的好处 和 效率观。
zettascale 的未来
以典型的方式,随着象征性百亿亿次里程碑的下降,注意力现在将转向下一个:泽塔。
“Zettascale 只是地面上的下一个旗帜,”Calleja 博士说,“一个图腾突出了实现计算进步的下一个里程碑所需的技术,而这些技术在今天是无法获得的。”
“就科学产出而言,世界上最快的系统对于你从中获得的东西来说是极其昂贵的。 但它们很重要,因为它们展示了可能的艺术,并推动了行业向前发展。”
能否以符合可持续发展目标的方式开发能够实现 1 zettaFLOPS 性能(比当前作物强大一千倍)的系统,将取决于行业的发明能力。
性能和功率效率之间没有二元关系,但每个子学科都需要适当的工艺,以在适当的功率范围内提供必要的性能提升。
理论上,存在性能与能耗的黄金比例,HPC为社会带来的收益可以说是碳排放支出的合理性。
当然,确切的数字在实践中仍然难以捉摸,但从定义上讲,追求这个想法本身就是朝着正确方向迈出的一步。
[ad_2]
Source link