当 TOPS 不再等于效能 AI 算力真正的瓶颈在哪里？

近几年，AI 芯片的发表会几乎都离不开一个关键词：TOPS。无论是数据中心 GPU、车用 SoC，还是边缘 AI 处理器，算力数字一代比一代高，从数十 TOPS、数百 TOPS，快速跳到上千甚至上万 TOPS。表面上看，AI 算力似乎已经不是问题，但在实际系统设计与应用中，效能瓶颈却仍然频繁出现。这也让工程师开始重新思考一个问题：TOPS 真的是决定 AI 效能的核心指标吗？

TOPS（Tera Operations Per Second）代表芯片在特定计算精度条件下，每秒可完成的理论计算次数。多数 AI 芯片会以 INT8、INT4 等低精度计算作为标准，因为这类计算最符合推论场景，也最容易堆栈出漂亮的算力数字。然而，TOPS 本身并不等于实际应用效能，它更像是一颗引擎的最大马力值，无法反映整个系统是否能长时间稳定地输出这个效能。

以 NVIDIA 为例，近几代数据中心 GPU 的 AI 算力早已进入万 TOPS 等级。H100、B200 等产品在低精度 AI 计算模式下，理论算力极高，足以支撑大型语言模型与生成式 AI 的推论需求。在终端与边缘市场，NVIDIA Jetson 系列、Qualcomm、MediaTek、Apple 以及 Google 等，也陆续推出具备数十到数百 TOPS 的 NPU SoC，用于影像辨识、语音处理与本地端 AI 推论。从规格表来看，AI 算力似乎已全面到位。

但实务上，AI 推论并不是单纯的计算而已。每一次计算之前，都必须先从内存读取权重与特征数据，计算完成后，再将结果写回内存。当模型规模变大、数据重用频率提高，系统的效能往往受限于数据搬移，而非计算单元本身。这也是为什么在许多应用中，即使芯片标示的 TOPS 很高，实际效能却无法线性成长。

因此我们须回归到内存架构问题。为了支撑高 TOPS 计算，各大 AI 芯片厂纷纷加强内存带宽设计。数据中心 GPU 大量采用 HBM，透过堆栈式封装与超高带宽，缩短计算单元与外部内存之间的距离。而在 SoC 与 NPU 设计中，芯片内部 SRAM 的面积比例则持续攀升，成为不可忽视的关键资源。

SRAM 在 AI 芯片中的角色，并不只是暂存数据这么简单。它负责承接高频、低延迟的数据存取需求，支持权重快取、特征图暂存以及中间计算结果保存。对于卷积神经网络、Transformer 等模型而言，数据的重复存取频率极高，如果每一次都必须回到外部 DRAM，不仅延迟增加，功耗也会快速上升。因此，越来越多 AI 架构选择将关键数据留在片上 SRAM 中，真正发挥 TOPS 所代表的算力。

因为 SRAM 扮演关键角色，其可靠度与测试覆盖率的重要性也随之放大。在高频、长时间运作下，SRAM 容易面临读扰、耦合干扰、老化等问题，一旦发生错误，影响的不只是单一计算，而是整个 AI 推论结果的稳定性。这使得内存测试与修复机制，成为 AI 芯片设计中不可或缺的一环。

从 TOPS 的快速膨胀，到内存架构的持续进化，可以看出 AI 芯片竞争的重心正在转移。算力仍然重要，但真正拉开差距的，往往是谁能让数据流动得更顺畅、内存更可靠。当 TOPS 不再只是宣传数字，而能被完整释放时，AI 芯片的价值，才算真正被发挥出来。