近几年,生成式AI引领行业变革,AI训练率先崛起,带动高带宽内存(High Bandwidth Memory, HBM)一飞冲天。但我们知道AI推理的广泛应用才能推动AI普惠大众。在AI推理方面,业内巨头、初创公司等都看到了其前景并提前布局。 AI推理也使得高带宽内存HBM不再是唯一热门,更多内存芯片与AI推理芯片结合,拥有了市场机会。已经有不少AI推理芯片、内存内计算(Computing in Memory, CIM)芯片将SRAM替代DRAM,从而获得更快的访问速度、更低的刷新延迟等。
静态随机存取内存(Static Random-Access Memory, SRAM)是随机存取内存的一种。这种内存只要保持通电,里面储存的数据就可以恒常保持。相对之下,动态随机存取内存(DRAM)里面所储存的数据就需要周期性地更新。但当电力供应停止时,SRAM储存的数据还是会消失,这与在断电后还能储存数据的ROM或闪存不同。
SRAM具有较高的效能,但SRAM的集成度较低,功耗较DRAM大,SRAM需要很大的面积。同样面积的晶圆可以做出更大容量的DRAM,因此SRAM显得更贵。SRAM可作为置于处理器(CPU)与主存间的高速缓存,不需要定期刷新,响应速度非常快,可用于CPU的一级缓冲、二级缓冲。
Groq LPU近内存计算
在AI推理大潮下,Groq公司开发的语言处理器(Language Processing Unit, LPU),以其独特的架构,带来了极高的推理效能的表现。Groq的芯片采用14nm制程,搭载了230MB SRAM以保证内存带宽,单芯片内建的内存(On-chip Memory)带宽达80TB/s。
SRAM的访问速度比DRAM快得多,这使得它在某些计算密集型应用中表现得非常出色。Groq LPU芯片采用大容量SRAM内存有助于提高机器学习和AI等计算密集型工作负载的效率。
Groq成立于2016年,总部位于美国加利福尼亚州山景城,是一家AI推理芯片厂商。该公司核心团队来源于Google最初的张量处理器(Tensor Processing Unit, TPU)工程团队。Groq创始人兼CEO Jonathan Ross是Google TPU项目的核心研发人员。2024年8月,Groq在最新一轮融资中筹集了6.4亿美元,由BlackRock Inc.基金领投,并得到了思科和三星投资部门的支持。2024年12月Groq在沙特阿拉伯达曼构建了中东地区最大的推理集群,该集群包括了19,000个Groq LPU,并在8天内上线。今年2月,Groq成功从沙特阿拉伯筹集15亿美元融资,用于扩展其位于沙特阿拉伯的AI基础设施。
Axelera AIPU芯片:内存计算+RISC-V架构
Axelera公司介绍,内存计算是一种完全不同的数据处理方法,在这种方法中,内存设备的横杆数组可以用来储存矩阵,并在没有中间数据移动的情况下“就地”执行矩阵向量乘法。专有的数字内存计算科技是实现高效能和卓越性能的关键。基于SRAM和数字计算相结合,每个储存单元有效地成为一个计算单元。这从根本上新增了每个计算机周期的操作数(每个储存单元每个周期一次乘法和一次累加),而不受噪音或较低精度等问题的影响。

Axelera的AIPU芯片采用了创新的内存计算技术。与传统的磁盘片相比,内存计算将数据储存在主存储器(RAM)中,从而加快了数据处理速度。此技术使得Axelera的芯片在提供高效能计算的同时,能以更低的成本和功耗来进行边缘AI计算。该芯片还采用了开源的RISC-V指令集架构(ISA)。RISC-V作为一种低成本、高效且灵活的ISA,允许根据特定的应用需求进行定制。它为Axelera提供了极大的设计自由度和创新空间。去年,Axelera获得了来自三星电子风险投资部门三星Catalyst的大力支持,成功筹集了6,800万美元,至此Axelera的总融资额已达到1.2亿美元。新投资者包括三星基金、欧洲创新委员会基金、创新产业战畧伙伴关系基金和Invest-NL。
EnCharge AI:模拟内存内计算
AI芯片初创公司EnCharge AI表示,已开发出一种用于AI推理的新型内存内计算架构,EnCharge AI的核心技术是基于模拟内存计算的AI芯片。这种创新的芯片设计采用“基于电荷的内存”,通过读取储存平面上的电流而非单个位(bit)来处理数据,使用更精确的电容器替代了传统的晶体管。与GPU等数字加速器相比,每瓦效能提高了20倍。EnCharge AI的推理芯片仅需一瓦的功率就能以8位精度提供150 TOPS的AI计算。EnCharge AI源自普林斯顿大学,该公司创始人兼CEO Naveen Verma的相关研究项目涉及到内存计算。用于机器学习计算的内存计算采用在RAM中运行计算的管道,以减少储存设备带来的延迟。

今年初,EnCharge AI完成超额认购的1亿美元B轮融资。此轮超额认购融资使EnCharge AI的总融资额超过1.44亿美元,将推动其首款以客户端计算为主的AI加速器产品,并在2025年实现商业化。
D-Matrix:数字内存内计算DIMC架构
D-Matrix采用数字内存内计算(DIMC)的引擎架构将计算移动到RAM附近,该数字CIM技术将内存与计算单元中的乘积累加计算(Multiply Accumulate, MAC)进行了合并,获得了更大的计算带宽和效率,降低延迟,减少功耗。首批采用D-Matrix的DIMC架构的产品Jayhawk II处理器,包含约165亿晶体管的Chiplet。每个Jayhawk II Chiplet都包含一个RISC-V核心对Chiplet进行管理,每个核心有八个并行操作的DIMC单元。去年底D-Matrix首款人工智能芯片Corsair开始出货。每张Corsair卡由多个DIMC计算核心驱动,具有2,400 TFLOP的8bit峰值计算能力、2GB SRAM和高达256GB的LPDDR6。
D-Matrix公司是一家位于Santa Clara的初创公司,专注于AI芯片的研发。该公司的主要产品是针对数据中心和云端计算中的AI服务器设计的芯片,旨在优化AI推理工作负载。D-Matrix公司已经获得了多家知名投资机构的支持,包括微软风险投资部门、新加坡投资公司淡马锡、Palo Alto Networks等,D-Matrix曾在2022年4月获得了4,400万美元融资,由M12和韩国晶体管制造商SK海力士公司领投。累计融资超过1.6亿美元。
虽然说SRAM的拥有成本比较高,但其在AI推理计算中能够减少数据来回传输的延迟,避免拖慢整个AI处理的速度。在AI推理的浪潮下,SRAM将发挥更大的作用。
来源:本文由电子发烧友原创。