OpenMixer: En ny tilnærming til handlingsdeteksjon for åpent ordforråd

0
OpenMixer er en ny handlingsdeteksjonsmetode for åpent ordforråd som utnytter semantikken og lokaliserbarheten til store visuelle språkmodeller (VLM), kombinert med design av spørringsbaserte deteksjonstransformatorer (DETR), for å lykkes med å løse handlingsdeteksjon i den åpne verden. Eksperimenter viser at OpenMixer overgår baseline-metoder når det gjelder å oppdage både sett og usett handlinger.