[ad_1]
这是一个新的竞争时代的开始。 今天,英特尔首次亮相的 Arc A770 和 A750 GPU 已经完全拉开帷幕,预示着该公司将长期涉足离散消费显卡领域。 小心,英伟达和 AMD。 Chipzilla 现在正处于竞争之中,这得益于其新的 Xe HPG(高性能游戏)GPU 架构。
英特尔在 Arc 的首次亮相中采取了一种不同寻常(但战略上很聪明)的方法,最初为价格适中的便携式笔记本电脑推出了 Arc 3 显卡,然后在今年夏天在中国推出了同样适中的 Arc A380 桌面 GPU。 这样做让英特尔能够利用其在笔记本电脑和软件支持方面的强大优势,而不是在台式机上与 Nvidia 和 AMD 对打,并让该公司花费数月时间提供一些急需的驱动程序改进。
我们在另一篇文章中介绍了 Arc 3 笔记本电脑 GPU 的展示和英特尔的杀手级功能,解释了日常人们对这款新型笔记本电脑的期望。 现在,我们知道 Arc 7 桌面显卡的性能如何了。 (剧透警告:有时它会崩溃,有时会断断续续——从字面上看,如果您没有启用 PCIe Resizable BAR)。
不过,这不是本文的重点。 作为各种披露的一部分,英特尔研究员 Tom Peterson 向媒体简要介绍了支持这些 Arc “Alchemist”显卡的 Xe HPG 架构,让我们得以一窥英特尔独立显卡雄心壮志的基本要素。
因此,正如我们对 Nvidia 的 Ampere 和 AMD 的 RDNA 2 架构所做的那样,这里有一个关于 Intel Arc 的 Xe HPG 芯片内部结构的简要技术说明。 与 Nvidia 和 AMD 在其设计中使用不同技术和术语的方式很相似,英特尔的 Arc 芯片依赖于一些专有概念(包括需要解释的对时钟速度的新看法)。 这使得将 Arc 与竞争对手的 GPU 架构进行比较变得很困难——英特尔甚至不使用像 ROP 和 TMU 这样的常用术语——但是当我们在这里完成时,你将对 Xe HPG 的构成有一个坚实的高级理解打钩。 让我们深入挖掘。
认识 Xe HPG
英特尔
对于英特尔来说,Xe HPG “渲染切片”构成了每个 Arc GPU 的主干。 英特尔的笔记本电脑和台式机 Arc 产品可以根据需要放大或缩小以满足不同的市场需求,但这些渲染切片是它们的核心,包含专用的光线追踪单元、光栅化器、几何块和 Arc 的基本构建块 Xe核心本身。 Xe XPG 可以在旗舰 Arc A770 中一直扩展至多达 8 个渲染切片。
每个渲染切片包含四个 Xe 内核和四个光线追踪单元,以及运行现代 GPU 所需的所有其他位。 这些渲染切片完全符合 DirectX 12 Ultimate,这意味着英特尔的 Arc GPU 可以处理光线追踪、可变速率着色、网格着色以及与该标准相关的所有其他功能。

英特尔
让我们更深入地了解一下 Xe 内核本身。 每个 Xe 内核(同样,每个渲染切片有四个)由三个关键位组成:16 个 256 位“XVE”矢量引擎,用于处理更传统的光栅化任务,16 个 1024 位“XMX”矩阵引擎,用于处理机器学习任务(就像 Nvidia 的竞争对手 RTX GPU 中的张量核心)和 192KB 的共享 L1/SLM 缓存。 该缓存可用于在计算工作负载期间保存任务,或在游戏时保存着色器和纹理。

英特尔
最大的 PC 游戏公司可能会押注光线追踪是图形的未来——例如,每个 Xe Core 都包含一个专门的线程排序单元,旨在帮助着色器更有效地处理任意反弹的光线追踪数据——但传统渲染仍然存在现在的国王。 每个 Xe 矢量引擎都包括一个专用的浮点 (FP) 执行端口来处理传统着色任务,以及一个共享的 INT/EM 端口,可以同时处理基于整数的任务。
Nvidia 在其 RTX 20 系列“图灵”架构中引入了并发 FP/INT 流水线,以防止整数任务阻塞 FP32 流水线,此后它已成为常态。 “当 Nvidia 检查现实世界游戏的行为时,它发现每执行 100 条浮点指令,平均还会处理 36 条和多达 50 条非浮点指令,从而使事情变得混乱,”我们在 2018 年写道。 “新的整数流水线分别处理这些额外的指令和 同时与 FP32 流水线。 同时执行这两个任务会大大提高速度。”

英特尔
英特尔专用的“XMX”矩阵引擎连接到每个 Xe Core 中的矢量引擎。 它们与 Nvidia 的 RTX 张量核心大体相似,旨在大大加速机器学习任务。 这些是释放 XeSS 潜力的位,英特尔的竞争对手 Nvidia 吹嘘的 DLSS 上采样,以及其他特殊功能,如 Hyper Compute 和英特尔新 Arc Control 指挥中心的虚拟相机功能。 (再次阅读我们的 Arc 笔记本电脑 GPU 报道,以更深入地了解这些消费者级功能。)

英特尔
当被兼容的软件(例如带有 XeSS 的游戏或支持 Hyper Compute 的应用程序)利用时,XMX 内核的 4 深脉动阵列可以为 INT8 推理计算每个时钟多达 256 个乘法累加 (MAC) 操作,比带有 DP4a 硬件的现代 GPU 提供的 64 个操作/时钟,以及旧 GPU 支持的 16 个操作/时钟。
英特尔的 XeSS 支持回退模式,以在缺乏 XMX 内核的竞争对手 Nvidia 和 AMD 显卡上运行,默认使用 DP4a 硬件。 这张图片很好地说明了为什么英特尔说 XeSS 在内置 XMX 硬件的 Arc GPU 上运行得更快。

英特尔
每个 Xe Core 共有 16 个向量和矩阵引擎,每个引擎都成对运行,能够同时运行 FP、INT 和 XMX 任务。 Arc GPU 确实可以保持非常非常忙碌。 可以在下面的英特尔解释器视频中找到这种忙碌的全部程度,以及对 Xe HPG 如何处理复杂光线追踪任务的更深入了解。
英特尔一直以其以闪电般快速的 QuickSync 技术为首的媒体引擎而自豪,Xe XPG 的媒体引擎也不例外。 它包含您对图形芯片所期望的所有现代功能——各种 8K HDR 编码和解码支持、HEVC、VP9,等等——而且还包含了 Arc 发布时没有其他芯片(CPU 或 GPU)提供的重要功能:硬件加速的 AV1 编码。 (不过,Nvidia 的 GeForce RTX 40 系列也将支持 AV1 编码。

英特尔
高效的下一代视频标准由行业巨头联盟创建,正在迅速成为常态,现代桌面 GPU 支持 AV1 解码 这可以帮助您观看 8K 视频,而不会让您的系统着火,但到目前为止,您需要单独使用软件才能真正实现 创造 AV1 视频。
英特尔表示,由 Arc 解锁的硬件加速 AV1 创作是 50次 比软件编码更快,或者它能够以与其他编码器相同的比特率提供更清晰的流媒体视觉效果。 我们测试了 Arc 的 AV1 芯片,发现它确实让 Nvidia 和 AMD 的传统编码器相形见绌。 (是的,甚至是 NVENC。)
与作为公司 Deep Link 套件的一部分的全英特尔笔记本电脑和台式机中提供的 Hyper Encode 功能相结合,该套件利用 CPU 和 GPU 中的媒体引擎,而不是其中一个,基于 Arc 的系统可以证明非常引人注目视频创作者。
Xe HPG 显示引擎

英特尔
Xe HPG 显示引擎在 Arc GPU 堆栈中保持一致,这意味着每个 Arc 显卡都提供相同的视频输出功能(尽管确切的端口配置会因型号而异)。 如果您真的在一对 8K 屏幕上尝试游戏,不要期望有好的帧速率,但如果您想要所有像素用于您的生产力任务,很高兴知道 Arc 会支持它!
了解英特尔 Arc A 系列 GPU 阵容

英特尔
让我们花点时间将所有这些技术讨论带回实际领域。 英特尔将一堆 Xe 内核和渲染切片拼凑成一对专用的 Arc “Alchemist” GPU:为旗舰 Arc 7 图形选项提供动力的高端 ACM-G10,以及出现在Arc 3 笔记本电脑和台式机 GPU。

英特尔

英特尔
从那里,这些 GPU 可以被切片和切块以满足不同的市场需求。 上面的图表显示了第一代笔记本电脑 Arc 显卡是如何脱颖而出的。
Xe HPG 图形时钟速度
在上面的那些笔记本电脑 GPU 规格表中,有些东西可能会让你大吃一惊:它们的超低时钟速度。 (台式机 GPU 运行得更快,也更典型。)在 Nvidia 的 GPU 推动 2GHz 和一些 AMD GPU 清除 2.5GHz 的时代,看到英特尔的 Arc 移动最高达到 1650MHz,低至 900MHz 有点令人眼花缭乱。 然而,竞争对手图形品牌之间的时钟速度并不像看起来那么清晰。

英特尔
AMD 的 Radeon GPU 的“游戏时钟”与我之前解释过的 Nvidia 的“加速时钟”不同。 英特尔正在为其 Arc GPU 使用另一个指标,称为“图形时钟”。 Petersen 将英特尔的图形时钟定义为特定 GPU 用于的典型轻型和重型工作负载的平均时钟速度(例如,He XPG 的游戏和工作站卡的可能计算任务)。 如果您查看上面的笔记本电脑 GPU 图表,您还会看到为每个图表定义的一系列 TDP; 图形时钟基于最低可用 TDP。 换句话说,英特尔的图形时钟 用于笔记本电脑图形 基本上代表了 Arc GPU 的最坏情况。 (当然,桌面 GPU 使用固定的功率预算并且表现得更加典型。)

英特尔
综上所述,图形核心可以根据推动力的大小以不同的速度运行——它们在 2D 复古游戏中的速度要高得多,而在复杂的现代游戏中速度要低得多,这些游戏涉及 Xe Core 和 Render 的每个部分以切片为例。 瓦数也会对性能产生巨大影响; 正如我们在 Nvidia 的移动 GeForce 产品中看到的那样,将更多的能量注入 GPU 可以帮助推动较低层的 GPU 超越表面上更强大的兄弟姐妹的低功耗版本。
还值得注意的是,时钟速度并不是一切。 在同一家公司的架构中,速度通常更好——例如,2GHz GeForce GPU 将比 1.5GHz GPU 快。 但是 AMD 的台式机 Radeon RX 6500 XT 落后于其兄弟姐妹,尽管它配备了快得离谱的 2.8GHz 时钟速度。 正如 AMD 的 Robert Hallock 曾经在我们的 Full Nerd 播客中解释的那样,原始时钟速度的提升远非提高性能的唯一方法。 该公司的 Ryzen 7 5800X3D 处理器实际上看到了巨大的游戏性能提升 下降 时钟速度并在芯片顶部放置大量缓存。
这很复杂,这就是我要说的。
但是等等,还有更多!

布拉德查科斯/IDG
这就是我们对英特尔 Xe HPG 架构的了解。 如果所有这些关于矩阵引擎和媒体编码器的讨论让您感到头疼和烦恼,请务必查看我们的英特尔 Arc A770 和 A750 显卡评测,深入了解所有这些技术花絮在现实中的表现。
电弧执行 非常 与竞争对手不同,有好有坏,Xe HPG 是驱动这一切的引擎。 英特尔的 Arc A750 和 A770 限量版于 10 月 12 日上架。
[ad_2]
Source link