[ad_1]
前瞻性: 一份新报告揭示了微软使用的大量 Nvidia GPU 以及它在安排这些 GPU 以帮助 OpenAI 训练 ChatGPT 时所采取的创新。 这一消息发布之际,微软宣布对其 AI 超级计算机进行重大升级,以进一步推进其本土的生成 AI 计划。
据彭博社报道,OpenAI 在微软由数万个 Nvidia A100 GPU 构建的超级计算机上训练了 ChatGPT。 微软本周宣布了一个使用 Nvidia 更新的 H100 GPU 的新阵列。
这些公司面临的挑战始于 2019 年,当时微软向 OpenAI 投资了 10 亿美元,同时同意为这家初创公司建造一台人工智能超级计算机。 但是,Microsoft 没有内部硬件来满足 OpenAI 的需要。
在收购了 Nvidia 的芯片后,微软不得不重新考虑如何安排如此大量的 GPU 以防止过热和断电。 该公司不愿透露这项努力的确切成本,但执行副总裁斯科特·格思里 (Scott Guthrie) 估计这个数字超过了数亿美元。
另请阅读:Nvidia 赢得了 AI 培训市场吗?
同时运行所有 A100 迫使 Redmond 考虑如何放置它们及其电源。 它还必须开发新的软件来提高效率,确保网络设备能够承受海量数据,设计可以独立制造的新电缆桥架,并使用多种冷却方法。 根据不断变化的气候,冷却技术包括蒸发、沼泽冷却器和外部空气。
自 ChatGPT 取得初步成功以来,微软及其一些竞争对手已开始为搜索引擎和其他应用程序开发并行 AI 模型。 为了加速其生成 AI,该公司推出了 ND H100 v5 VM,这是一种可以使用八到数千个 Nvidia H100 GPU 的虚拟机。
H100s 通过 NVSwitch 和 NVLink 4.0 连接,每个虚拟机中的 8 个本地 GPU 中的每一个之间的对分带宽为 3.6TB/s。 每个 GPU 通过 Nvidia Quantum-2 CX7 InfiniBand 和 64GB/s PCIe5 连接拥有 400 Gb/s 的带宽。 每个虚拟机通过非阻塞胖树网络管理 3.2Tb/s。 微软的新系统还配备了第 4 代英特尔至强处理器和 16 通道 4800 MHz DDR5 内存。
微软计划将 ND H100 v5 VM 用于其新的人工智能 Bing 搜索引擎、Edge 网络浏览器和 Microsoft Dynamics 365。该虚拟机现在可以预览,并将成为 Azure 产品组合的标准配置。 潜在用户可以请求访问。
[ad_2]
Source link