OpenMixer: วิธีการใหม่ในการตรวจจับการกระทำของคำศัพท์แบบเปิด

0
OpenMixer เป็นวิธีการตรวจจับการกระทำของคำศัพท์แบบเปิดแบบใหม่ที่ใช้ประโยชน์จากความหมายและความสามารถในการแปลของโมเดลภาษาภาพขนาดใหญ่ (VLM) รวมกับการออกแบบหม้อแปลงการตรวจจับตามแบบสอบถาม (DETR) เพื่อแก้ปัญหาการตรวจจับการกระทำในโลกเปิดได้สำเร็จ การทดลองแสดงให้เห็นว่า OpenMixer มีประสิทธิภาพเหนือกว่าวิธีการพื้นฐานในการตรวจจับการกระทำทั้งที่มองเห็นและมองไม่เห็น