Statistiques de visualisation de la vidéo #31 - nicola messina - towards efficient cross-modal visual textual retrieval using transformer encoder deep features