根据GTC 2026大会的最新信息，Fe

范樱真实

每天进步一点点。

关注

艺术+

根据GTC 2026大会的最新信息，Feynman 是英伟达继Rubin之后规划的下一代AI芯片架构，预计在2028年推出。它最大的特点是从“通用计算”转向“AI推理专用”，并首次深度整合了Groq的LPU（语言处理单元）技术。核心架构：3D堆叠与光通信 Feynman采用了非常激进的物理设计，旨在解决AI推理中的“内存墙”和“功耗墙”问题： * 3D堆叠设计：采用台积电的SoIC（系统级集成）技术，将计算核心与存储核心像三明治一样垂直堆叠在一起。这种设计大幅缩短了数据在芯片内部传输的距离，从而显著降低延迟。 * A16制程与背面供电：采用台积电1.6纳米A16工艺，并引入背面供电（BSPDN）技术。简单说，就是把供电线路从芯片正面挪到了背面，给正面腾出更多空间来布线，从而提升芯片的集成密度和能效。 * 光通信技术：为了解决高功耗下的散热和信号传输问题，Feynman系统将大规模采用CPO（共封装光学）技术。通过将光模块直接封装在芯片或交换机附近，用光信号替代传统的铜缆，实现更高的带宽和更低的能耗。推理场景举例：Agentic AI（代理式AI） Feynman的核心目标是支撑Agentic AI（能自主规划、执行复杂任务的AI代理）。传统的AI模型是“一问一答”，而Agentic AI是“多步推理”，对延迟极其敏感。具体例子：AI旅行规划师假设你让AI帮你规划一次去日本的旅行，传统GPU和Feynman的处理方式会有明显差异： * 传统GPU（高吞吐，高延迟）： * 你输入“帮我规划去杭州的7天行程”。 * GPU会一次性加载整个大模型，虽然算力强，但处理这种长序列任务时，数据在内存和计算单元之间来回搬运，响应时间较长（可能需要几秒甚至十几秒）。 * 如果同时有多个用户请求，GPU会把这些请求打包成“批次”处理，虽然整体效率高，但单个用户的等待时间可能被拉长。 * Feynman（低延迟，确定性）： * 得益于Groq LPU的整合，Feynman擅长处理低批次、高并发的请求。 * 当你发出指令后，Feynman能利用其3D堆叠的大容量SRAM，快速将模型参数加载到离计算核心最近的地方，实现“即取即算”。 * 它能以极低的延迟（可能毫秒级）快速生成第一步结果（如“确定目的地为杭州”），然后立刻进行下一步推理（“查询杭州天气”），整个过程非常流畅，几乎没有卡顿感。总结 Feynman代表了英伟达从“卖算力”到“卖AI工厂”的战略转变。它不再追求单纯的算力峰值，而是通过3D堆叠、光通信和LPU整合，打造一个专门为实时交互和复杂推理而生的“超级大脑”。 AI生成，（工具：夸克，腾讯元宝）配图是AI生成的，（工具：混元）

勤丰小区

2026-03-16 11:43浙江杭州

打开潮新闻参与讨论