2025-08-18 拓墣产业研究院

人型机器人之窗：从视觉模型剖析人型机器人进展

焦点报告 AI人工智慧人机科技

意见反映字体大小小中大

摘要

现阶段人型机器人模型发展重点包含视觉－动作学习模型(VLA)的优化，以及结合多元数据、提升指令解读与理解人类意图。在训练数据方面，主要透过世界模型、人类影片与VR远端训练等方式，并更著重「第一人称视角」，以增强其感知能力。尽管人型机器人的最终目标是实现通用性，但现阶段模型发展仍面临诸多挑战，使欧美与中国厂商各自发展出不同的路径。

一. 视觉模型为机器人感知核心
二. 人型机器人模型厂商布局动态
三. 拓墣观点

图一　人型机器人模型运作示意图
图二　人型机器人训练资料说明
图三　Apple HAT模型说明
图四　ViLLA架构说明

表一　第一人称视角和第三人称视角算法比较
表二　第一人称资料集举要

会员专属

您好，该资料属会员权益方可浏览，您需成为会员且购买此产业项目权限才可观看，详细说明如下：

拓墣产业研究院之「产业数据库」为付费的会员服务，若您尚未具备会员身份，欢迎您申请加入或是与我们的客服联络了解。
若您所属公司机关已具有拓墣会员身份，并且设定予贵公司人员在线申请，请先行移至「申请会员账号」填写申请数据后送出，我们会尽快为您审核办理。若未开放在线申请，请您询问贵公司的承办联系人处理，谢谢。
由于贵公司无采购此产业项目，因此您将无法浏览此篇文章，欲查询贵公司所购买的产业项目明细，请至「会员权益」查询，谢谢。