世界模型和具身大脑最新突破:90%生成数据,VLA性能暴涨300%
允中 发自 凹非寺
量子位 | 公众号 QbitAI
VLA模型性能暴涨300%,背后训练数据还首次实现90%由世界模型生成。
这是来自国产世界模型玩家的最新突破,相关模型代码和训练框架还全都开源了。
具身智能迈向开放世界落地的最大瓶颈,长期以来并非算法本身,而是高质量、大规模真实机器人交互数据的极度稀缺。
真机数据采集成本高昂、周期漫长,且难以覆盖多样化的开放场景,严重限制了VLA大模型的规模化训练与泛化能力。而传统仿真虽能快速生成数据,却受限于显著的Sim-to-Real gap,难以支撑真实世界的鲁棒部署。
世界模型(World Model)被认为是破解这一困境的关键:通过学习真实世界的规律,世界模型可以生成高保真、可控、多样化的具身交互数据,突破真机数据不足的限制。
在此背景下,刚刚获得华为投资的国产世界模型公司极佳视界发布并开源具身世界模型GigaWorld-0,成功将世界模型生成数据在VLA训练中的占比提升至90%。
所训练的VLA模型在新纹理(训练中未见材质表面)、新视角(训练中未见的观测角度)、新物体位置(训练中未见的空间布局)三大泛化维度上均实现近300%的性能提升,标志着具身智能正式迈入“数据高效、高泛化、低成本”的新阶段。
作为具身智能迈向规模化与数据高效的关键基础设施,GigaWorld-0由两大协同组件构成:
GigaWorld-0-Video基于视频生成基座模型,生成纹理丰富、视觉逼真具身操作数据;GigaWorld-0-3D则融合3D生成、3D Gaussian Splatting重建、可微分物理引擎,确保生成数据在几何结构与物理动力学的准确性。
高效的世界模型架构
针对当前世界模型在生成时面临的计算效率低、细节控制不足等挑战,GigaWorld-0-Video重点提升了稀疏注意力建模能力与动态专家计算能力,在保持视觉保真度的同时显著降低计算开销,为VLA模型提供高质量、可扩展的合成训练数据。
稀疏注意力机制:高效建模长程时空依赖
GigaWorld-0-Video采用基于稀疏注意力的Diffusion Transformer(DiT)作为生成主干,摒弃传统全注意力带来的平方级计算复杂度。
该机制仅在局部时空邻域与关键语义区域间建立注意力连接,从而在生成高帧率、长序列视频时,显著降低内存占用与推理延迟。
MoE架构:提升生成多样性与可控性
在DiT的前馈网络模块中,GigaWorld-0-Video参考DeepSeek V3集成混合专家(Mixture-of-Experts,MoE)架构。
每个视频Token动态路由至多个专家网络。确保不同语义区域由专属专家处理,实现细粒度的内容控制。
几何一致、物理准确的世界模型建模
GigaWorld-0-3D通过融合生成与重建技术,显著提升了在稀疏观测条件下的场景建模能力,并结合可微分物理引擎,实现了对机械臂操作过程的高保真物理仿真。
该系统不仅生成几何一致、视觉逼真的静态背景资产,还精准复现了机械臂与物体交互中的动力学行为,为具身智能体提供兼具几何一致性与物理准确性的训练数据。
生成式重建:几何一致性与视觉保真度的协同优化
在几何一致性渲染方面,GigaWorld-0-3D融合极佳视界积淀的生成式重建技术,有效突破稀疏观测下的建模瓶颈。
系统首先基于稀疏输入视图,初始化高斯场景表示。随后引入专用的视图修复生成模型,显著缓解因视角缺失导致的几何扭曲。最终,将修复后稠密、一致的多视角图像作为增强输入,驱动第二阶段的高精度3DGS重建,从而在新视角合成中同时保障几何一致性与视觉保真度。
可微分物理引擎:高效精准的物理建模
在物理准确性建模方面,GigaWorld-0-3D引入基于物理信息神经网络(PINNs)的可微分物理引擎,实现对机械臂动力学的自动参数辨识。
通过三步流程:以随机物理参数生成仿真轨迹、训练可微替代模型逼近系统动力学、再以梯度下降优化参数匹配真实运动,高效生成物理合理、交互可信的数据。
高效世界模型训练框架
GigaWorld-0是业内首个采用FP8精度端到端训练的世界模型,标志着世界模型训练迈入高能效新阶段。
通过将FP8与稀疏注意力深度结合,GigaWorld-0在保持生成质量的同时,显著降低显存占用与训练成本,实现了视觉保真度与计算效率的最佳平衡。
为这一突破提供基础的,是极佳视界自研的GigaTrain高效训练框架。
GigaTrain是一个为大规模生成模型量身打造的统一分布式训练系统,支持DeepSpeed ZeRO、FSDP2、FP8混合精度、梯度检查点等先进训练技术,既可支撑超大规模预训练,也能在8×H20等常规硬件上高效完成微调。
GigaTrain现已全面开源(GitHub:https://github.com/open-gigaai/giga-train),极佳视界还同步开放了详细的资源消耗基准与配置模板,助力社区开发者快速复现、迁移并定制GigaWorld-0,推动具身智能数据生成的普惠化与标准化。
可泛化具身数据引擎
在PBench(Robot Set)基准上,研究团队将GigaWorld-0与当前最先进的世界模型进行了全面对比,包括Cosmos-Predict2-14B、Cosmos-Predict2.5-2B、Wan2.2-5B和Wan2.2-14B。
尽管GigaWorld-0模型仅激活20亿参数(2B),为所有对比模型中最小,却在整体评分上显著领先,取得最高性能。
这一结果证明GigaWorld-0在具身智能任务中兼具生成质量与推理效率,是目前极具性价比的世界模型方案。
GigaWorld-0的价值还不仅体现在高质量视频与3D场景的生成能力上,更关键的是其作为可泛化具身数据引擎在真实世界中的有效性。
在VLA模型GigaBrain-0上,研究团队系统性地验证了GigaWorld-0生成数据对下游具身智能任务的提升作用。实验在真实机器人平台上进行,聚焦三大开放世界泛化挑战:新纹理泛化、新视角泛化、与新物体位置泛化。
结果表明:随着GigaWorld-0生成数据在训练混合数据中比例的提升,GigaBrain-0在上述三类泛化场景下的任务成功率与动作精度均呈现显著且稳定的增长趋势。
项目链接:
https://giga-world-0.github.io/
论文链接:
https://arxiv.org/pdf/2511.19861
代码链接:
https://github.com/open-gigaai/giga-world-0
关于极佳视界
极佳视界成立于2023年,是国内第一家“纯血”物理AI公司——创业就以世界模型为切入点,专注于「世界模型平台 x 具身基础模型」,致力以双轮闭环走向物理世界通用智能。
在「世界模型」方向,极佳视界是国内技术创新和产业落地的领跑者,相关产品技术已广泛应用于自动驾驶、具身智能、内容创作等相关方向。
在「具身大脑」方向,极佳视界通过全球领先的「世界模型平台」提供大规模高质量闭环数据,相比纯真机数据训练效率提升1-2个数量级以上,同时真机效果达到国内领先。
极佳视界的创始人兼CEO黄冠,是清华大学自动化系AI方向博士。曾担任地平线机器人视觉感知技术负责人、鉴智机器人合伙人&算法副总裁等知名企业技术和高管岗位,并拥有三星中国研究院、微软亚洲研究院等顶尖研究机构工作经历。
黄冠之外,联合创始人、首席科学家朱政同样有清华自动化系背景。他2019年博士毕业于中国科学院自动化研究所,此后在清华大学自动化系从事博士后研究。Google Scholar显示,朱政的论文被引数达到1.7w+,h-index为50。
公司核心团队还包括清华、北大、中科院、中科大、WashU、CMU等全球知名院校顶尖研究人员,以及来自微软、三星、地平线、百度、博世、NBC环球影业等全球知名企业高管,核心团队兼具业内领先的研究能力和大规模的产业落地经验。
目前,极佳视界是国内少有在「世界模型」和「具身大脑」方向都拥有世界级综合实力的团队,在自动驾驶世界模型方向已经和多个头部主机厂达成签约合作,在具身世界模型、具身大脑等方向已经和多个具身本体、终端公司达成签约合作,应用于科研、教育、展览、数据采集、工业、服务、家庭等多个场景。
就在11月,极佳视界刚刚完成亿元级A1轮融资,由华为哈勃、华控基金联合投资。这也是该公司两个月内连续完成的第三轮融资。
— 完 —