多模态大模型领域的DeepSeek也开源了 智能汽车迎来变革

潮新闻 记者 范国飞2025-02-18 01:07全网传播量11.9万
00:00
00:00
01阶跃星辰与吉利汽车联合研发两款多模态大模型开源,包含全球参数量最大的Step-Video-T2V和首款产品级Step-Audio,显著提升视频生成与语音交互能力。
02阶跃Step-Video-T2V模型参数量达300亿,可生成204帧540P高质量视频,优化后版本在生成效率、流畅性和细节表现力上大幅提升,支持复杂运动与细腻人物表情捕捉。
03阶跃Step-Audio作为行业内首款产品级开源语音交互模型,支持情绪、方言、语种等多样化表达,能与用户自然高质量对话,显著提升交互体验。
04吉利星睿AI大模型结合阶跃Step系列模型,赋能高阶智驾体验,包括行车安全、紧急避险、智慧泊车等场景,并探索将合成场景转化为自动驾驶训练数据,提升车辆应变能力。
05吉利与DeepSeek深度融合,通过蒸馏训练提升智能汽车AI交互能力,精准理解用户模糊意图,主动提供车辆控制与对话服务,加速AI在智能汽车领域的普及应用。
以上内容由传播大模型和DeepSeek生成,仅供参考

DeepSeek发布开源大语言模型引发全球关注后,又一家中国人工智能公司的多模态大模型宣布开源。

2月18日,人工智能公司“阶跃星辰”和吉利汽车集团联合宣布,双方合作研发的两款阶跃Step系列多模态大模型向全球开发者开源,包含目前全球范围内参数量最大、性能最好的开源视频生成模型阶跃Step-Video-T2V,以及行业内首款产品级开源语音交互大模型阶跃Step-Audio。

DeepSeek、阶跃星辰等公司相继发布开源大模型,为开源世界带来了多模态大模型能力,将显著促进大模型技术的共享与创新,推动人工智能的普惠发展,为全球数字经济发展贡献中国力量。

两款多模态大模型开源

具备很强的视频生成和对话能力

阶跃星辰是吉利汽车集团的科技生态战略合作伙伴,拥有国际顶尖的算法团队。

2023年开始,吉利便与阶跃星辰在预训练大模型、垂直领域大模型、应用场景设计、工程开发等方面展开了深度合作。其中,吉利牵头了场景设计、模型测评、工程开发等业务,阶跃星辰主导了模型预训练等业务,双方优势互补,显著增强了两款阶跃Step系列多模态大模型的性能表现。

阶跃Step-Video-T2V大模型参数量达到300亿,可以直接生成204帧、540P分辨率的高质量视频。

阶跃Step大模型生成的视频

阶跃Step大模型生成的视频

相比上一个版本,阶跃Step-Video V2版本在多个核心技术领域进行了优化和创新,采用了压缩比更高的VAE 模型,通过空间和时间的高效压缩,在保证重构质量的同时,显著降低了计算复杂度,提升了生成效率。同时,阶跃Step-Video V2对DiT架构进行了深度优化,并引入强化学习算法,进一步提升了视频生成的流畅性和细节表现力。

阶跃Step大模型生成的视频

在实际应用中,阶跃Step-Video V2展现出了强大的复杂运动生成能力,无论是芭蕾舞、空手道,还是羽毛球等场景,都能流畅地呈现动态画面。同时,该模型在人物表情捕捉方面表现出色,能够细腻地呈现真实人物或虚构角色的神态和光影效果。此外,Step-Video V2还支持丰富的镜头语言,包括推、拉、摇、移等多种运动方式,以及不同景别之间的切换,为视频创作提供了更多可能性。

同时,阶跃Step-Audio大模型能够根据不同的场景需求,生成情绪、方言、语种、歌声和个性化风格的表达,能和用户自然地高质量对话,是行业内首个产品级的开源语音交互模型。

目前,阶跃Step系模型多次在各大权威榜单中登顶榜首,收获国内外开发者诸多好评,充分验证了其技术实力。

更高阶智能驾驶技术上车

智能汽车加速驶来

当智能汽车遇上开源多模态大模型,出行领域的想象空间变得非常大。

2023年,在人工智能领域快速发展、大模型成为行业焦点的背景下,前微软全球副总裁姜大昕博士姜大昕创立了阶跃星辰。虽然是一家成立仅两年的AI初创企业,阶跃星辰已在大模型领域取得显著成就。近日,由麻省理工学院全资拥有的科技商业化智库《麻省理工科技评论》(MIT Technology Review)刊发了一篇题为《关注DeepSeek之外的四家中国人工智能初创公司》的报道,指出阶跃星辰等四家中国企业展现出不逊于DeepSeek的技术实力与全球竞争力。

吉利星睿AI大模型

在阶跃Step系列视频生成大模型、语音交互大模型,以及汽车行业全场景大模型的综合赋能下,吉利将在行车安全、紧急避险、智慧泊车等全场景为用户带来自动驾驶程度更高、更安全的高阶智驾体验,同时打造更加智能的汽车情感座舱,重新定义人车交互体验,推动AI科技在智能汽车领域的普及应用。

吉利星睿AI大模型中的AI Drive大模型,具备强大场景生成与规划能力,能够根据雨雪等不同天气光照条件、道路结构、拥堵路况、立体车库和不常见的交通目标,构建出真实驾驶中难得一遇的极端驾驶场景。基于真实的驾驶视频数据去优化阶跃Step-Video-T2V,可以将它变成一个自动驾驶数据合成器。星睿AI大模型正在探索将这些丰富的合成场景转换成“以假乱真”的训练数据,相当于自动驾驶系统打造了一个丰富的"虚拟驾考考场",从而显著提升车辆在智驾行驶时面对各种路况的应变能力,保障行车安全。

在Step-Audio大模型超强交互功能赋能下,吉利星睿AI大模型可以大幅提升语音指令响应速度,以及交互过程的情感理解与表达能力。当用户说“导航,快迟到了”的时候,系统不仅会自动规划更快路线,还会主动询问是否需要播放轻音乐缓解情绪。同时,系统不仅可识别粤语、四川话等丰富的方言,还支持个性化声音定制,用户既可以选择系统提供的人声音色,也能录制孩子的笑声制作专属提示音,甚至让车载AI模仿山涧流水声营造车内冥想空间,温情陪伴每一次出行。

值得一提的是,吉利也是首家与DeepSeek完成深度融合的车企。通过携手DeepSeek-R1模型,吉利将对星睿车控FunctionCall大模型、汽车主动交互端侧大模型等进行蒸馏训练。届时,吉利智能汽车AI不仅能对用户的模糊意图实现精准理解,进而准确调用约2000个车载接口,还能基于车内外场景主动分析用户潜在需求,并为用户主动提供车辆控制、主动对话、售后等服务,智能交互体验将大幅提升,加速AI在智能汽车领域普及。

作为汽车行业的领军企业之一,吉利近年来持续领跑智能汽车AI科技领域,并致力成为智能汽车AI科技的普及者。早在2021年,吉利就围绕芯片、软件操作系统、数据和卫星网搭建了端到端的自研体系和生态联盟,构建了完善的“智能吉利科技生态网”,驱动用户在智能驾驶、智能座舱上的体验不断进化。

星睿智算中心

2022年,吉利建成了全球车企首个“云、数、智”一体化的星睿智算中心。2023年,吉利发布了全球首个汽车行业全栈自研全场景AI大模型——星睿AI大模型,并获得了中国通信院“4+级”行业最高评级。2025年,吉利发布了行业首个“智能汽车全域AI”技术体系。

今年3月初,吉利还将对外发布重磅AI智能化战略,加速推动AI数字底盘、高阶智能驾驶等最新AI技术的逐步上车,为用户带来颠覆性的智能化体验。

相信在AI大模型的加持之下,智能汽车将不再是普通的交通工具,而是智能的出行终端。

“转载请注明出处”

最新评论(16)
潮客_sscyhi · 2025-02-18 06:42 · 浙江杭州回复
以后智能驾驶是不是就是常态了
星焑 · 2025-02-18 05:53 · 浙江杭州回复
高效压缩和强化学习算法,让视频生成更加流畅自然。
潮客_zakqhc · 2025-02-18 04:53 · 浙江杭州回复
自动驾驶数据合成器,就像虚拟驾考考场,提升应变能力。
龙马精神DragonSpirit · 2025-02-18 04:23 · 浙江杭州回复
语音交互还能支持方言和个性化声音定制,真的很贴心。
今天很给力 · 2025-02-18 04:08 · 浙江杭州回复
AI情感座舱重新定义人车交互,未来出行更有温度。
潮客_qssth3 · 2025-02-18 03:53 · 浙江杭州回复
智能驾驶结合多模态大模型,行车安全更有保障。
蘑菇Mushroom · 2025-02-18 03:38 · 浙江杭州回复
开源视频生成模型参数量最大,这技术太牛了!
潮客_24qwcd · 2025-02-18 03:37 · 浙江杭州回复
AI Drive大模型可以模拟各种极端驾驶场景,这对提升自动驾驶的安全性至关重要。未来行车将更加智能化、人性化。
Zoezz · 2025-02-18 03:22 · 浙江杭州回复
又是吉利,又在杭州👍
糖醋小乖 · 2025-02-18 02:52 · 浙江杭州回复
视频生成和语音交互都这么强,出行体验肯定更上一层楼。
潮客_s6n5hg · 2025-02-18 02:52 · 浙江杭州回复
吉利和阶跃星辰的合作成果真是让人期待,未来可期!
点击查看更多评论