关注
艺术+
SAGE(Synergistic Architecture for Generalized Expertise,智者)是上海人工智能实验室提出的一种旨在解决大模型“熵坍缩”问题的技术架构。它通过基础层、融合层、进化层三个层次的协同,实现了“通专融合”,即让模型在保持通用能力的同时,具备深度专业化的能力。 1. 核心原理:解决“熵坍缩” “熵坍缩”是指大模型在强化学习(RL)训练中,策略熵(即模型输出的不确定性)迅速耗尽的现象。这导致模型过早陷入“过度自信”,失去探索新路径的能力,从而限制了其专业化的上限。 SAGE架构通过以下三个层次协同解决这一问题: 基础层:知识与推理解耦 * 技术核心:引入记忆解码器(Memory Decoder)。它将“事实记忆”与“逻辑推理”解耦,解决了传统RAG(检索增强生成)的延迟和全参数微调带来的灾难性遗忘问题。 * 作用:为模型提供高效的知识供给,同时保持推理引擎的灵活性,为后续的深度进化打下基础。 融合层:强化学习驱动的协同 * 技术核心:采用隐式奖励强化学习算法(PRIME)。它通过密集的过程奖励机制,动态协调“直觉快思考”与“逻辑慢思考”。 * 作用:克服传统RL在稀疏奖励环境下的学习停滞,维持模型的探索能力,防止熵坍缩,驱动模型向专家化深度进化。 进化层:主动探索与闭环反馈 * 技术核心:建立递归循环机制。模型通过主动探索环境(如科学实验),将获得的反馈回流至基础层。 * 作用:实现从被动数据拟合到主动环境探索的范式转变,将“未知”转化为训练信号,推动认知策略的持续进化。 2. 应用案例:Intern-S1-Pro科学大模型 SAGE架构最典型的落地实践是书生·Intern-S1-Pro(万亿参数科学多模态大模型)。 * 背景:科学发现需要长链条的复杂推理,传统模型容易在训练中陷入熵坍缩,无法解决高难度问题。 * SAGE应用: * 基础层:通过傅里叶位置编码和高效路由机制,赋予模型理解微观到宏观物理直觉的能力。 * 融合层:通过多轮分层推理机制,让通用模型和专业校验模型分工协作,确保推理的严谨性。 * 进化层:结合专业符号引擎,让模型像人类科学家一样逐步推导和修正。 * 成果:该模型在数学奥赛(IMO)级难题中达到金牌水平,并能产生接近人类专家的解答,验证了SAGE在解决复杂科学问题上的有效性。AI生成,(工具:腾讯元宝)配图是AI生成的,(工具:混元)
拱墅区
2026-02-08 14:18浙江杭州
打开潮新闻参与讨论
1