
近几年,AI 芯片的发表会几乎都离不开一个关键词:TOPS。无论是数据中心 GPU、车用 SoC,还是边缘 AI 处理器,算力数字一代比一代高,从数十 TOPS、数百 TOPS,快速跳到上千甚至上万 TOPS。表面上看,AI 算力似乎已经不是问题,但在实际系统设计与应用中,效能瓶颈却仍然频繁出现。这也让工程师开始重新思考一个问题:TOPS 真的是决定 AI 效能的核心指标吗?
TOPS(Tera Operations Per Second)代表芯片在特定计算精度条件下,每秒可完成的理论计算次数。多数 AI 芯片会以 INT8、INT4 等低精度计算作为标准,因为这类计算最符合推论场景,也最容易堆栈出漂亮的算力数字。然而,TOPS 本身并不等于实际应用效能,它更像是一颗引擎的最大马力值,无法反映整个系统是否能长时间稳定地输出这个效能。
以 NVIDIA 为例,近几代数据中心 GPU 的 AI 算力早已进入万 TOPS 等级。H100、B200 等产品在低精度 AI 计算模式下,理论算力极高,足以支撑大型语言模型与生成式 AI 的推论需求。在终端与边缘市场,NVIDIA Jetson 系列、Qualcomm、MediaTek、Apple 以及 Google 等,也陆续推出具备数十到数百 TOPS 的 NPU SoC,用于影像辨识、语音处理与本地端 AI 推论。从规格表来看,AI 算力似乎已全面到位。
但实务上,AI 推论并不是单纯的计算而已。每一次计算之前,都必须先从内存读取权重与特征数据,计算完成后,再将结果写回内存。当模型规模变大、数据重用频率提高,系统的效能往往受限于数据搬移,而非计算单元本身。这也是为什么在许多应用中,即使芯片标示的 TOPS 很高,实际效能却无法线性成长。
因此我们须回归到内存架构问题。为了支撑高 TOPS 计算,各大 AI 芯片厂纷纷加强内存带宽设计。数据中心 GPU 大量采用 HBM,透过堆栈式封装与超高带宽,缩短计算单元与外部内存之间的距离。而在 SoC 与 NPU 设计中,芯片内部 SRAM 的面积比例则持续攀升,成为不可忽视的关键资源。
SRAM 在 AI 芯片中的角色,并不只是暂存数据这么简单。它负责承接高频、低延迟的数据存取需求,支持权重快取、特征图暂存以及中间计算结果保存。对于卷积神经网络、Transformer 等模型而言,数据的重复存取频率极高,如果每一次都必须回到外部 DRAM,不仅延迟增加,功耗也会快速上升。因此,越来越多 AI 架构选择将关键数据留在片上 SRAM 中,真正发挥 TOPS 所代表的算力。
因为 SRAM 扮演关键角色,其可靠度与测试覆盖率的重要性也随之放大。在高频、长时间运作下,SRAM 容易面临读扰、耦合干扰、老化等问题,一旦发生错误,影响的不只是单一计算,而是整个 AI 推论结果的稳定性。这使得内存测试与修复机制,成为 AI 芯片设计中不可或缺的一环。
从 TOPS 的快速膨胀,到内存架构的持续进化,可以看出 AI 芯片竞争的重心正在转移。算力仍然重要,但真正拉开差距的,往往是谁能让数据流动得更顺畅、内存更可靠。当 TOPS 不再只是宣传数字,而能被完整释放时,AI 芯片的价值,才算真正被发挥出来。