OpenMixer: naujas požiūris į atviro žodyno veiksmų aptikimą

VLM
2024-12-24 16:54
 0
„OpenMixer“ yra naujas atvirojo žodyno veiksmų aptikimo metodas, kuris panaudoja didelio masto vaizdinės kalbos modelių (VLM) semantiką ir lokalizuojamumą kartu su užklausomis pagrįstų aptikimo transformatorių (DETR) dizainu, kad būtų sėkmingai išspręstas veiksmų aptikimas atvirame pasaulyje. klausimas. Eksperimentai rodo, kad „OpenMixer“ aptinka ir matomus, ir nematytus veiksmus, pranoksta pradinius metodus.