OpenMixer: オープンボキャブラリーアクション検出への新しいアプローチ

0
OpenMixer は、大規模なビジュアル言語モデル (VLM) のセマンティクスとローカライズ性を活用し、クエリベースの検出トランスフォーマー (DETR) の設計と組み合わせて、オープンワールドでのアクション検出の問題を首尾よく解決する、新しいオープンボキャブラリーのアクション検出方法です。実験では、OpenMixer が、目に見えるアクションと目に見えないアクションの両方を検出する点で、ベースラインの方法よりも優れていることが実証されています。