理想认为,VLA能通过3D和2D视觉的组合,完整地看到物理世界,而不像VLM仅能解析2D图像。同时,VLA拥有完整的脑系统,具备语言、CoT(思维链)推理能力,既能看,也能理解并真正执行动作,符合人类的运作方式。