群核科技开源空间智能“钥匙”,一段视频解锁亿万虚拟训练场

潮新闻 记者 张云山2025-03-19 08:22全网传播量789
00:00
00:00
01群核科技在GTC2025全球大会上宣布开源空间理解模型SpatialLM。该模型能让机器仅凭普通视频生成物理精确的3D场景布局,为具身智能提供基础训练框架。
02SpatialLM通过分析视频点云数据,精准识别空间结构元素,并标注物体边界框,实现了机器对三维空间几何关系的理解,如同为其安装“空间视觉”。
03群核科技董事长黄晓煌指出,SpatialLM与空间智能平台SpatialVerse形成闭环生态,可将现实视频转化为结构化虚拟场景,再泛化成亿万级新场景,用于机器人智能训练。
04此次开源覆盖多个平台,开发者可直接调用SpatialLM进行场景微调,降低了具身智能训练门槛,中小企业无需从零构建模型。
05群核科技计划将SpatialLM融合自然语言交互,实现从空间认知到行动决策的完整训练链,架起数字仿真与物理现实之间的桥梁,加速机器智能发展。
以上内容由传播大模型和DeepSeek生成,仅供参考

在GTC2025全球大会上,群核科技宣布开源其空间理解模型SpatialLM,这一突破性技术让机器真正“看懂”物理世界。仅凭一段普通视频,SpatialLM即可生成物理精确的3D场景布局,为具身智能领域提供了一个基础的空间理解训练框架。

群核科技宣布开源其空间理解模型SpatialLM

让机器“睁开双眼”:从视频到3D世界的魔法

传统大语言模型虽能处理文本和图像,却难以理解三维空间的几何关系。而SpatialLM通过分析视频中的点云数据,精准识别墙壁、门窗等空间结构元素,甚至标注带语义的物体边界框,如同为机器安装“空间视觉”。

与Meta需依赖定制硬件的SceneScript不同,SpatialLM支持手机等普通相机输入,通用性更强。更关键的是,其输出的不仅是数据,更是可交互的自然语言描述,未来甚至能通过对话调整场景——这为机器人理解人类指令铺平道路。

数字道场:1段视频衍生亿万训练场景

“真正的智能训练需要海量物理正确的数据。”群核科技董事长黄晓煌指出,SpatialLM与空间智能平台SpatialVerse正形成闭环生态:现实视频经SpatialLM转化为结构化虚拟场景,再通过SpatialVerse的合成引擎泛化成亿万级新场景。例如,一段厨房视频可衍生出不同布局的千万个“数字厨房”,机器人在此反复练习开关冰箱、摆放餐具,甚至应对突发状况。这种“现实-虚拟-现实”的循环,既突破真机采集的成本瓶颈,又缩小仿真与现实的“数据鸿沟”。

降低90%训练门槛:开源生态催化行业爆发

此次开源模型覆盖HuggingFace、GitHub、魔搭社区等平台,开发者可直接调用SpatialLM进行场景微调。对于中小型企业而言无需从零构建模型,降低具身智能训练门槛。黄晓煌预言:“具身智能机器人很快会迎来爆发式发展,算力、算法、数据正同步突破,具身智能奇点将至。”

群核科技宣布开源其空间理解模型SpatialLM

未来:从认知到行动的智能跃迁

群核科技的野心不止于“看懂”。去年发布的SpatialVerse已积累海量可交互场景数据,让机器人在虚拟空间中“上学”,学习人类操作,如开关冰箱门、叠被子等。而SpatialLM下一阶段将融合自然语言交互,让人用一句话修改场景设定。黄晓煌强调:“我们要搭建从空间认知到行动决策的完整训练链,真正架起一座数字仿真与物理现实之间的桥梁。” 开源不是终点,而是行业共同进化的起点。当物理世界与数字道场无缝连接,机器智能的“觉醒”可能比预期来得更快。

“转载请注明出处”