OpenMixer: Ein neuer Ansatz zur Aktionserkennung im offenen Vokabular

0
OpenMixer ist eine neue Methode zur Aktionserkennung mit offenem Vokabular, die die Semantik und Lokalisierbarkeit großer visueller Sprachmodelle (VLM) in Kombination mit dem Design von abfragebasierten Erkennungstransformatoren (DETR) nutzt, um die Aktionserkennung in der offenen Welt erfolgreich zu lösen. Experimente zeigen, dass OpenMixer die Basismethoden bei der Erkennung sowohl sichtbarer als auch unsichtbarer Aktionen übertrifft.