东吴证券：距离真正的具身智能大模型有多远？

您现在的位置：主页 > 快讯 >

东吴证券：距离真正的具身智能大模型有多远？

时间：2025-08-17 07:57:09 阅读：

　　东吴证券发表研报称，未来具身大模型将在模态扩展、推理机制与数据构成三方面持续演进。当前主流模型多聚焦于视觉、语言与动作三模态，下一阶段有望引入触觉、温度等感知通道；Cosmos等架构尝试通过状态预测赋予机器人“想象力”，实现感知—建模—决策闭环，构建更真实的“世界模型”，提升机器人环境建模与推理能力；数据端，仿真与真实数据融合训练成为主流方向，高标准、可扩展的训练场正成为通用机器人训练体系的关键支撑。

　　尽管人形机器人的形态早已实现工程可行，但其真正实现产业化落地的关键，在于摆脱传统工业机器人“控制刚、泛化弱”的局限，补足对不确定性的理解与适应能力。工业机器人主要基于确定性控制逻辑运行，缺乏感知、决策与反馈能力，导致高度依赖集成，成本高、通用性差。相比之下，人形机器人以“通用智能体”为目标，强调感知—推理—执行的完整链路，必须依托大模型支撑的多模态理解与泛化能力，才能适应复杂任务与动态环境。当前多模态大模型的兴起，为人形机器人提供了“初级大脑”，开启从0到1的智能进化，并通过数据飞轮实现模型能力与产品性能的持续提升。然而整体智能化仍处于L2初级阶段，通往泛化智能仍面临建模方法、数据规模与训练范式等多重挑战，高智能大模型将是贯通通用人形机器人路径的核心变量。

　　当前机器人大模型的快速演进，主要得益于架构端与数据端的协同突破。架构上，从早期的SayCan语言规划模型，到RT-1实现端到端动作输出，再到PaLM-E、RT2将多模态感知能力融合至统一模型空间，大模型已逐步具备“看图识意、理解任务、生成动作”的完整链条。2024年π0引入动作专家模型，动作输出频率达50Hz；2025年Helix实现快慢脑并行架构，控制频率突破至200Hz，显著提升机器人操作的流畅性与响应速度。数据端，已形成互联网、仿真、真机动作三类数据协同支撑的结构化体系：前两者提供预训练量级与泛化场景，后者则直接提升模型在物理世界中的实用能力。其中，真机数据采集对高精度动捕设备依赖度高，光学动捕以精度优势适配集中式训练场，有望成为具身模型训练的核心数据面向未来，具身大模型将在模态扩展、推理机制与数据构成三方面持续演进。当前主流模型多聚焦于视觉、语言与动作三模态，下一阶段有望引入触觉、温度等感知通道；Cosmos等架构尝试通过状态预测赋予机器人“想象力”，实现感知—建模—决策闭环，构建更真实的“世界模型”，提升机器人环境建模与推理能力；数据端，仿真与真实数据融合训练成为主流方向，高标准、可扩展的训练场正成为通用机器人训练体系的关键支撑。

　　模型端建议关注，数据采集领域建议关注，数据训练场领域建议关注。

　　大模型技术进展不及预期，高质量数据获取受限，人形机器人需求不及预期。

　　源自：智通财经网

上一篇：北京共栖同行智能科技有限公司成立，注册资本500万人民币

下一篇：安徽金种子酒业股份有限公司8月9日新增投诉，消费者要求退赔费用，停止侵权、核定侵权责任

东吴证券：距离真正的具身智能大模型有多远？

时间：2025-08-17 07:57:09 阅读：

相关文章