关注
艺术+
根据GTC 2026大会的最新信息,Feynman 是英伟达继Rubin之后规划的下一代AI芯片架构,预计在2028年推出。它最大的特点是从“通用计算”转向“AI推理专用”,并首次深度整合了Groq的LPU(语言处理单元)技术。 核心架构:3D堆叠与光通信 Feynman采用了非常激进的物理设计,旨在解决AI推理中的“内存墙”和“功耗墙”问题: * 3D堆叠设计:采用台积电的SoIC(系统级集成)技术,将计算核心与存储核心像三明治一样垂直堆叠在一起。这种设计大幅缩短了数据在芯片内部传输的距离,从而显著降低延迟。 * A16制程与背面供电:采用台积电1.6纳米A16工艺,并引入背面供电(BSPDN)技术。简单说,就是把供电线路从芯片正面挪到了背面,给正面腾出更多空间来布线,从而提升芯片的集成密度和能效。 * 光通信技术:为了解决高功耗下的散热和信号传输问题,Feynman系统将大规模采用CPO(共封装光学)技术。通过将光模块直接封装在芯片或交换机附近,用光信号替代传统的铜缆,实现更高的带宽和更低的能耗。 推理场景举例:Agentic AI(代理式AI) Feynman的核心目标是支撑Agentic AI(能自主规划、执行复杂任务的AI代理)。传统的AI模型是“一问一答”,而Agentic AI是“多步推理”,对延迟极其敏感。 具体例子:AI旅行规划师 假设你让AI帮你规划一次去日本的旅行,传统GPU和Feynman的处理方式会有明显差异: * 传统GPU(高吞吐,高延迟): * 你输入“帮我规划去杭州的7天行程”。 * GPU会一次性加载整个大模型,虽然算力强,但处理这种长序列任务时,数据在内存和计算单元之间来回搬运,响应时间较长(可能需要几秒甚至十几秒)。 * 如果同时有多个用户请求,GPU会把这些请求打包成“批次”处理,虽然整体效率高,但单个用户的等待时间可能被拉长。 * Feynman(低延迟,确定性): * 得益于Groq LPU的整合,Feynman擅长处理低批次、高并发的请求。 * 当你发出指令后,Feynman能利用其3D堆叠的大容量SRAM,快速将模型参数加载到离计算核心最近的地方,实现“即取即算”。 * 它能以极低的延迟(可能毫秒级)快速生成第一步结果(如“确定目的地为杭州”),然后立刻进行下一步推理(“查询杭州天气”),整个过程非常流畅,几乎没有卡顿感。 总结 Feynman代表了英伟达从“卖算力”到“卖AI工厂”的战略转变。它不再追求单纯的算力峰值,而是通过3D堆叠、光通信和LPU整合,打造一个专门为实时交互和复杂推理而生的“超级大脑”。 AI生成,(工具:夸克,腾讯元宝)配图是AI生成的,(工具:混元)
勤丰小区
2026-03-16 11:43浙江杭州
打开潮新闻参与讨论
1