人型机器人之窗:从视觉模型剖析人型机器人进展
摘要
现阶段人型机器人模型发展重点包含视觉-动作学习模型(VLA)的优化,以及结合多元数据、提升指令解读与理解人类意图。在训练数据方面,主要透过世界模型、人类影片与VR远端训练等方式,并更著重「第一人称视角」,以增强其感知能力。尽管人型机器人的最终目标是实现通用性,但现阶段模型发展仍面临诸多挑战,使欧美与中国厂商各自发展出不同的路径。
一. 视觉模型为机器人感知核心
二. 人型机器人模型厂商布局动态
三. 拓墣观点
图一 人型机器人模型运作示意图
图二 人型机器人训练资料说明
图三 Apple HAT模型说明
图四 ViLLA架构说明
表一 第一人称视角和第三人称视角算法比较
表二 第一人称资料集举要
