Focus

Modelli di deep learning per la ricerca da testo a immagine

I ricercatori del laboratorio Networked Multimedia Information System (NeMIS) dell'Istituto di Scienza e Tecnologie dell'Informazione "A. Faedo" in Pisa hanno sviluppato un modello di ricerca di immagini basato su metodi di deep learning che effettua la ricerca partendo da una breve descrizione testuale dell'immagine desiderata, p.e.: "un gruppo di sciatori in un giorno di sole".
Il processo di ricerca è stato implementato tramite una ricerca per similarità in uno spazio di descrittori visuali, imparando tradurre il testo in una rappresentazione visuale astratta basata su descrittori derivati da deep neural network. Queste rappresentazioni astratte possono essere in un certo senso paragonate a "l'immagine mentale" che una persona costruisce quando legge un testo descrittivo di una scena visuale.
Effettuare la ricerca nello spazio visuale ha il vantaggio che qualsiasi evoluzione del modello di traduzione da testo a immagine non richiede di riprocessare l'intera collezione di immagini (tipicamente enorme) sul quale si esegue la ricerca. Questo riprocessamento è invece necessario per i modelli tradizionali che funzionano traducendo le immagini in insiemi di parole chiave.

Articolo: Picture It In Your Mind: Generating High Level Visual Representations From Textual Descriptions
Fabio Carrara, Andrea Esuli, Tiziano Fagni, Fabrizio Falchi, Alejandro Moreo Fernández https://arxiv.org/abs/1606.07287
Software: https://github.com/AlexMoreo/tensorflow-Text2Vis
Maggiori informazioni: http://deep.isti.cnr.it/