2025年中国世界模型发展洞察

报告背景

本报告由全球知名增长咨询公司Frost & Sullivan（沙利文）于2025年8月发布。报告聚焦“世界模型”（World Models）这一前沿人工智能技术，旨在全面梳理其发展历程、现状、核心技术及其在智能驾驶和具身智能中的应用，并通过对不同厂商能力的对比分析，探讨世界模型未来的发展趋势。报告期望为相关领域的研究者、开发者以及企业提供有价值的参考信息，促进技术进步和产业发展。

核心内容

一、世界模型概述

世界模型（World Models, WMs）是一种生成式AI模型，通过构建内部表征理解真实世界的动态规律（涵盖物理特性与空间属性），并借助文本、图像、视频和运动数据等输入信息生成视频内容。它们能够从感官数据中学习表征和预测运动、力和空间关系等动态特性，从而对现实环境物理属性进行理解，并通过生成环境及动作来模拟、指导和实施决策。

世界模型的核心要素包括：

感知与建模：通过传感器、图像识别、自然语言处理等技术将外界信息处理并转化为对世界的认知。
状态表示：将感知数据表示为某种形式的状态，例如强化学习中环境某一时刻的抽象表示。
学习与更新：通过学习不断更新自身结构，随着新信息的加入而不断优化，提高未来预测的准确性。
动态性与预测能力：根据现有数据进行预测和推理，帮助决策者在不确定性时做出更理性和高效的选择。

世界模型的发展历程从理论提出到产业试点，目前仍处于早期阶段，以感知压缩和因果推理为主，闭环尚未稳定成型。未来将向多模态感知、因果可控生成、与具身智能系统深度融合三个方向突破。

世界模型主要有四大应用场景，其中自动驾驶的应用成熟度最高，其次是具身智能、游戏与VR、科学模拟。

二、世界模型技术能力分析

世界模型的关键技术与能力包括：

因果推理能力：要求AI能够回答“如果A发生，B会怎样？”的能力，通过构建视觉感知组件与记忆组件，提升AI在动态环境中的自主决策能力。
场景重建时空一致性：在3D世界中保持空间结构稳定和时间演化连贯，通过长期记忆机制、潜在空间建模、对象中心表征等技术实现更优的时空一致性。
多模数据物理规则描述：模拟复杂的物理规则，如流体运动、物体碰撞等，需要考虑大量参数和变量，具有高度非线性和不确定性。
执行与实时反馈：通过结合强化学习，实现从感知→建模→规划→执行→感知更新→模型修正的动态循环过程，并利用反馈信号持续优化自身。

世界模型的技术指标主要包括：

FID（Fréchet Inception Distance）：衡量生成图像与真实图像分布差异，值越低表示图像质量和多样性越接近真实数据。
FVD（Fréchet Video Distance）：FID的视频扩展版本，衡量生成视频与真实视频在时空特征上的相似性。
帧率：模型生成或预测视频每秒包含的帧数，决定时间分辨率。
时长：模型生成或预测连续视频帧的数量或时间长度，衡量长期预测能力。
一致性：生成视频在时间维度上的连贯性，包括运动平滑性、物体身份保持、场景逻辑合理性等。

报告对比了全球主流世界模型厂商的技术能力，包括英伟达COSMOS、谷歌Genie3、Meta V-JEPA2、商汤绝影开悟和Wayve GAIA2。不同厂商根据自身战略与技术优势，打造生成式或非生成式世界模型。

三、世界模型在自动驾驶中的应用

自动驾驶技术正从L2级辅助驾驶向L3级迈进，2024年上半年中国乘用车L2及以上自动驾驶新车渗透率已达55.7%，预计2025年将达到65%。L3级是辅助驾驶和自动驾驶的分水岭，未来2-3年将成为L3级量产的关键期。

自动驾驶当前面临六大核心痛点：

环境理解能力不足：动态障碍物误判率高，单一传感器可靠性受限。
泛化能力差：长尾场景稀有，仿真与真实场景鸿沟大。
高度依赖高精地图：时效性难以保持，跨区域适配成本高。
决策预测不稳定：模块割裂导致响应延迟，长时序推理能力弱。
研发与运营成本高昂：硬件成本高，长期数据成本高。
安全信任度不足：安全验证时间长，公众信任程度保守。

世界模型能通过生成多层复杂要素结合的场景，将传统算法难以覆盖的“高动态+高不确定性”场景转化为可控问题，解决自动驾驶的长尾问题，推动L3级系统落地。世界模型能够生成或应对极端天气、突发风险、全域连续驾驶等不足0.1%但决定99.9%安全性的场景。

世界模型通过构建“真实数据→模型训练→仿真场景验证→模型部署”的闭环反馈机制，为感知、预测、规划、控制等模块提供一致的认知语境，推动自动驾驶系统持续学习、自主验证并快速迭代优化。世界模型能够节省近50%的成本，提高约70%的效率，是突破L4规模化部署瓶颈的加速器。

未来，世界模型在自动驾驶中将走向：

跨模态世界建模：综合多模态信息源，构建更全面的数字孪生，深化与BEV架构和VLA模型融合。
AI原生地图构建：重塑高精地图生成与使用模式，催生AI原生地图，支持车辆实时构建环境模型并同步至云端。
与强化学习融合：大规模采用世界模型辅助的强化学习，使自动驾驶系统具备自主进化能力。
通用世界模型：具备更强的泛化和迁移能力，成为自动驾驶的“通用大脑”，融合数百亿参数、多模态输入。
多车协同建模：多辆自动驾驶车辆之间共享感知信息，在云端融合成更大范围、更精细的世界模型。

四、世界模型在具身智能中的应用

具身智能是指通过机器人等物体实体与环境交互，实现对世界的感知、决策、行动、反馈闭环，并能由此实现智能增长和行动自适应的智能系统。它代表着AI从纯粹的信息处理转向物理世界的交互。具身智能的基础架构由本体、数据和软硬件技术底座共同构成。

具身智能领域的核心痛点是模型训练对数据的需求量大，但物理交互数据极度缺乏，存在“千倍级缺口”。相比大语言模型的TB级存量和自动驾驶的PB级积累，具身智能只有约240万的积累，但需要数百PB级的物理交互数据支撑，数据缺口超过99%。

世界模型为具身智能提供大规模高质量合成数据，解决了当前数据瓶颈。它能生成视觉逼真、物理精确的合成数据，克服传统仿真数据与真实世界差异，并大幅降低数据获取成本约60%，缩短数据获取周期（本体企业约70%，模型企业约95%）。

世界模型不仅为具身智能提供数据支持，更在重塑其整个开发范式。以世界模型为核心构建的一站式闭环开发平台，通过数据合成、算法训练和仿真验证的无缝连接，形成闭环迭代系统，大幅提升研发效率，降低技术门槛。

世界模型在具身智能中的未来框架是基于“物理+心智”的双轨建模。物理世界模型关注物体运动和机械因果，心智世界模型将人类的心理规律（如意图、情绪、信念、社会关系等）纳入建模范畴，使智能体能够表征和理解人类心理状态、行为模式和文化惯例，实现对目标意图的预测和情绪反应的模拟，从而从被动执行转向主动响应用户需求，实现情境感知与心理理解层次的协同模式。

五、世界模型厂商竞争格局

世界模型厂商综合实力评估指标包括应用能力（行业覆盖、场景覆盖）、产品能力（环境建模与预测、决策与规划、模拟仿真预训练、研发投入与创新）和生态建设（数据生态、软硬件协同生态、合作伙伴生态、开发者生态）。

目前，中国世界模型领域玩家已超过10家。其中，商汤、地平线、华为等主要提供底层技术、平台和仿真能力，面向整车厂与行业合作伙伴输出解决方案。理想、小米、小鹏、蔚来等车企则以自研世界模型并将其嵌入自身智能驾驶系统。

在综合实力评估中，商汤世界模型以4.60分位居榜首，其产品技术、应用能力和生态建设均表现突出，在独立第三方及主机厂中处于领先地位。华为以4.53分紧随其后，蔚来、Momenta、GigaAI、卓驭等厂商也各有优势。

数据亮点

自动驾驶算法应用：超过80%的自动驾驶算法使用世界模型进行辅助训练。
中国市场玩家数量：目前中国世界模型领域玩家已超过10家。
自动驾驶渗透率：2024年上半年，中国乘用车L2及以上自动驾驶新车渗透率已达55.7%，预计2025年将达到65%。
世界模型经济效益：世界模型能够节省近50%的成本，并提高约70%的训练效率。
具身智能数据缺口：具身智能领域存在超过99%的物理交互数据缺口，现有积累约240万，但需要数百PB级数据支撑。
合成数据成本效益：世界模型生成合成数据可降低约60%的数据获取成本，并缩短本体企业约70%、模型企业约95%的数据获取周期。
厂商排名：商汤绝影“开悟”世界模型在技术产品、应用能力及生态建设三方面综合评价位居榜单第一。

趋势与展望

世界模型正处于从早期探索走向复杂智能行为生成的关键过渡期。未来，其发展将集中在以下几个方面：

多模态感知与因果可控生成：通过多模态输入增强对世界状态的理解，并引入因果建模与可控生成机制，提升预测准确性与行为规划能力。
与具身智能深度融合：世界模型将与具身智能系统深度融合，实现从“观察世界”到“理解并参与世界”的跃迁，成为具身智能的“认知核心”。
自动驾驶L3级量产加速：世界模型有望在1-2年内实现上车，引领自动驾驶从车端走向云端，推动L3级自动驾驶系统大规模落地。
AI原生地图与强化学习结合：在自动驾驶领域，世界模型将重塑高精地图的生成与使用模式，催生AI原生地图，并大规模采用强化学习辅助决策，实现自主进化。
“物理+心智”双轨建模：在具身智能领域，世界模型将发展为基于物理和心智的双轨建模架构，使智能体能够理解人类心理状态和行为模式，实现情境感知与心理理解层次的协同。
平台化与生态建设：以商汤为代表的平台型世界模型提供商将通过构建开放通用的产业基座，赋能自动驾驶、具身智能等领域的规模化应用与跨场景迁移，并推动整个产业生态的协同发展。