OpenMixer: Một cách tiếp cận mới để phát hiện hành động từ vựng mở

2024-12-24 16:54
 0
OpenMixer là một phương pháp phát hiện hành động từ vựng mở mới tận dụng ngữ nghĩa và khả năng bản địa hóa của các mô hình ngôn ngữ hình ảnh lớn (VLM), kết hợp với thiết kế các biến áp phát hiện dựa trên truy vấn (DETR), để giải quyết thành công việc phát hiện hành động trong thế giới mở. Các thử nghiệm chứng minh rằng OpenMixer vượt trội hơn các phương pháp cơ bản trong việc phát hiện cả hành động nhìn thấy và không nhìn thấy.