2025年的春节,DeepSeek持续霸榜热搜,它为我国AI领域带来了一场振奋人心的突破。这一成果不仅标志着我国AI大模型首次与国际顶尖水平并驾齐驱,更折射出我国AI产业从“技术跟跑”到“技术并跑”的跨越式发展。回顾过去三年,从2023年春节前ChatGPT的“狼来了”到2024年春节期间Sora引发的“多模态冲击”,再到2025年春节前夕DeepSeek的崛起,我国AI的发展路径正勾勒出一条独特的“跟跑—并跑—局部领跑”曲线。然而,这场竞争的本质并非简单的技术追赶,而是一场覆盖AI产业基础层、技术层、应用层的系统性博弈。
图片由大模型生成
基础层:跟跑中的突围战——数据、算力与算法的困境与突破
AI基础层是整个AI产业链的基石,涵盖数据、算力和算法三大核心要素。我国在此领域的现状可以用“规模庞大但质量不足”概括,整体仍处于国际跟跑阶段,但局部已显现突破迹象。早期的跟跑,我们可能看不到领跑者的影子,但现在我们已经看到了领跑者的影子了。
在数据方面,虽然我国拥有全球最大的数据资源池,但我国数据“大而不强”问题却很突出,包括数据价值密度低、数据孤岛林立、数据标注质量差等。DeepSeek的破局之道在于“四两拨千斤”,其研发团队通过把数据进行总结和分类,经过选择性投喂与处理之后,输送给大模型,提高了训练效率。
在算力方面,虽然我国算力规模已达230EFLOPS(每秒百亿亿次浮点运算),仅略低于美国,但结构性问题显著,包括高端芯片严重依赖进口、超算中心能耗过大、算力资源调度效率低等。DeepSeek的算力突围堪称“小米加步枪的胜利”。面对美国芯片禁令,其研发团队对低配版GPU集群(甚至多源异构算力)进行智能管理,对CPU、GPU甚至边缘计算设备进行协同调度,打破了“大力才能出奇迹”的算力魔咒。
在算法基础理论领域,我国仍高度依赖海外创新。Transformer架构、MoE(混合专家模型)、Diffusion Model(扩散模型)等核心框架均源自美国学术界。DeepSeek的实践展现了它站在巨人肩膀上进行“二次创新”与“集成创新”的潜力。其研发团队在融合混合专家模型、强化学习推理等算法的基础上,构建了从架构设计到工程落地的全流程优化体系,但这还称不上“从0到1”的颠覆性基础理论突破。
图片由大模型生成
技术层:并跑中的创新赛——模型研发与工程优化的双轨竞速
AI技术层是连接基础研究与商业应用的桥梁,主要包括:计算机视觉、语音语义识别、机器学习、知识图谱、AI大模型等技术。在AI技术层,国内企业与学术界早已默默跟跑数年,但早期国产大模型的“稚嫩”表现——如将“胸有成竹”误解为“身上插满竹子”——让公众对中美技术差距的感知依然强烈。然而,正是这种敢于“亮剑”的试错精神,为后续的技术进阶奠定了基础。当前,中国在AI技术层已进入与国际顶尖水平的“并跑”阶段,尤其在模型工程化、多模态融合、推理效率等方面展现出独特优势。DeepSeek的崛起,更是展现了我国从“技术跟跑”到“技术并跑”过程中系统级协同创新的核心优势。
回望2023年初,国产大模型开始像下水饺似地遍地开花,但普遍陷入“参数竞赛”误区,智谱AI的GLM-130B、百度的ERNIE 3.0 Titan等模型参数量均超千亿,但实际表现与同时期的GPT3.5相比还是存在1到2个技术代差。
与OpenAI、智谱、百度等打造“全能大模型”的方式不同,DeepSeek的突破在于重新定义技术路线,并进行了基于群智协同的系统级工程优化,主要包括混合专家模型、负载均衡、多头潜在注意力机制、大小模型协同、强化学习推理,以及诸如FP8混合精度和负载均衡、通信优化、内存优化、计算优化等工程优化方法。例如,混合专家模型能够将模型拆分为多个“子专家”,根据任务类型动态激活部分参数,显著提升了推理效率;强化学习推理能够模仿人类“先思考再行动”的认知模式,通过模拟决策树减少无效计算;大小模型协同网络能够让小模型担任“助理”,处理专门任务,从而释放大模型算力。
DeepSeek不惧个别国家发起的“芯片禁令”和构筑的“小院高墙”,在算力资源受限环境下另辟蹊径,通过对人工智能三要素(数据、算力、算法)进行一系列的系统级协同创新与工程优化,并选择向全世界开源,这无疑走出了与OpenAI等国外公司不同的技术路线,可谓是一个“筋斗云”实现了“换道超车”,堪称是一场AI技术革命。
图片由大模型生成
应用层:领跑中的生态战——商业化落地与行业重构
AI应用层是AI在各领域的融合和应用,集成一类或多类AI技术,面向特定应用场景需求而形成的软硬件产品或解决方案,主要包括在政府、金融、安防、智能家居、医疗、机器人、智能驾驶、新零售等领域的应用。在AI应用层,我国拥有全球最多的产业门类与应用场景,更是已形成全球最活跃的AI商业化生态圈。据工信部数据显示,2024年底,我国人工智能核心产业规模接近6000亿元,这表明我国在AI应用层已经实现全面领跑。DeepSeek引爆全网,更是以“中国速度”席卷全球科技圈,成为现象级APP,在AI应用层掀起了新一轮创新浪潮。2025年2月8日的QuestMobile有关数据显示,DeepSeek在1月28日的日活跃用户数首次超越豆包,并在2月1日突破3000万大关,成为史上最快达成这一里程碑事件的应用程序。
一方面,DeepSeek已向垂直行业渗透,实现从通用大模型到专用大模型的转化。例如,在金融领域,包括国泰君安、国金证券、中泰证券、兴业证券、国元证券、华福证券在内的多家券商陆续官宣,已完成DeepSeek-R1模型的本地化部署。在医疗领域,包括恒瑞医药、医渡科技等多家医疗公司宣布“牵手”DeepSeek,推动AI医疗加速落地。在制造领域,海尔集团已完成DeepSeek大语言模型和多模态模型的集成,并提供企业私有化部署解决方案,加速企业数字化转型。在通讯领域,中国移动、中国电信、中国联通三家基础电信企业均全面接入DeepSeek开源大模型,实现在多场景、多产品中的应用。
另一方面,作为开源大模型,DeepSeek鼓励全球开发者在其基座模型上进行二次开发和创新,从“卖API”到“生态共建”从而形成一个活跃的生态系统,共同推动大模型技术的进步和应用的多样化。通过开源换生态,DeepSeek吸引了大量的全球开发者参与生态建设,衍生出医疗、法律等成百上千个垂直版本。截至2025年2月7日,通过软硬件协同,DeepSeek已与16家国产AI芯片企业(如华为昇腾、沐曦、天数智芯等)完成适配。华为昇腾通过自研推理加速引擎,使DeepSeek模型在昇腾硬件上达到与国外高端GPU相当的部署效果。
领跑未来的关键在于“从0到1”
虽然我国在AI应用层处于国际领跑,在AI技术层处于国际并跑,但在AI基础层仍处于国际跟跑。无论是OpenAI还是DeepSeek,它们都基于美国谷歌公司在2017年提出的Transformer架构,因此皆不属于“从0到1”的颠覆性基础理论创新,均属于“从1到100”的大规模工程整合创新。DeepSeek的创新更是包含了一种从架构设计到工程优化的全流程、系统级技术突破与创新。DeepSeek的启示在于:中国AI的崛起,本质上是一场大规模系统级工程创新的胜利。它证明在既有技术框架下,通过工程优化与路径创新,完全可能实现局部超越。但真正的“领跑”,仍需攻克基础层的“卡脖子”难题——从Transformer到下一代AI架构,从数据标注标准到算力芯片自主,每一个“从0到1”的突破都将重塑全球AI的竞争格局。
DeepSeek缩短了中美之间的AI差距,但远远称不上中国AI已经遥遥领先。无论是唱衰中国AI水平还是捧杀中国AI水平,两者都不可取。未来,中美AI竞争或将呈现出“你追我赶”的螺旋式上升:中国在应用迭代与工程化效率上持续发力,美国在基础理论与硬件生态上保持优势,中国在基础理论与硬件生态上实现突破。而DeepSeek的突围,恰似一针强心剂并向世界宣告,在这场AI长跑中,中国已找到自己的发展路线和节奏。未来,中国科技人才、特别是青年科技人才需要在基础研究、特别是“从0到1”的基础创新上付出更多的定力、花费更大的功夫。
浙江财经大学盈阳金融科技学院院长、浙江财经大学人工智能研究院院长张文宇 浙江财经大学供图
浙江财经大学信息技术与人工智能学院院长张帅 浙江财经大学供图
(张文宇:浙江财经大学盈阳金融科技学院院长、浙江财经大学人工智能研究院院长;张帅:浙江财经大学信息技术与人工智能学院院长)
“转载请注明出处”