Ideal Auto ເຊື່ອວ່າ VLA ສາມາດບັນລຸເປົ້າຫມາຍຂອງການລວມເອົາວິໄສທັດ 3D ແລະ 2D.

554
ໂດຍຫລັກການແລ້ວ, VLA ຈະສາມາດເບິ່ງເຫັນໂລກທາງກາຍະພາບໄດ້ທັງໝົດໂດຍຜ່ານການລວມກັນຂອງວິໄສທັດ 3D ແລະ 2D, ບໍ່ເຫມືອນກັບ VLM ທີ່ສາມາດແປພາບ 2D ເທົ່ານັ້ນ. ໃນເວລາດຽວກັນ, VLA ມີລະບົບສະຫມອງທີ່ສົມບູນດ້ວຍພາສາແລະ CoT (ຕ່ອງໂສ້ຂອງຄວາມຄິດ) ຄວາມສາມາດໃນການສົມເຫດສົມຜົນ. ມັນສາມາດເຫັນໄດ້, ເຂົ້າໃຈແລະປະຕິບັດຕົວຈິງ, ເຊິ່ງສອດຄ່ອງກັບວິທີການປະຕິບັດຂອງມະນຸດ.