Multimedia/Multilingual Access to Cultural Heritage | Consiglio Nazionale delle Ricerche

Il gruppo "multimedia/multilingual Information Retrieval" del Laboratorio Networked Multimedia Information Systems (NMIS) (commessa: Digital Libraries) dell'ISTI-CNR, ha recentemente realizzato un motore di ricerca multimediale e multilingue specializzato per i Beni Culturali (Cultural Heritage - CH), denominato MultiMatch. Il sistema costituisce il risultato di un progetto di ricerca europeo, coordinato dall'ISTI-CNR (http://www.multimatch.org/).
Nel web, oggetti rilevanti per il CH sono presenti in ambiti diversi, come ad esempio biblioteche, musei, archivi audiovisivi, oltre che riviste specializzate, giornali, ecc. I contenuti sono spesso costituiti da immagini, video ed audio, oltre che testi presenti in diverse lingue. I motori di ricerca esistenti non fornisco agli utenti interessati ad accedere agli oggetti digitali - per scopi didattici, educativi, turistici, commerciali, ecc. - un adeguato supporto alla individuazione, interpretazione ed aggregazione dei contenuti. Spesso i motori di ricerca sono general-purpose, per cui vengono ritrovati oggetti che non appartengono al dominio del CH, oppure sono specifici per un particolare museo o archivio digitale, per cui è possibile effettuare ricerche solo su una parte minima dei contenuti esistenti. Inoltre, raramente sono presenti funzionalità avanzate, come un supporto multilingue che consenta di formulare le richiesta nella lingua dell'utente e di trovare oggetti scritti in altre lingue, oppure la possibilità di cercare oggetti multimediali basandosi sul contenuto degli stessi.
Il motore di ricerca realizzato, denominato MultiMatch, è basato sull'uso del sistema di multimedia content management MILOS (http://milos.isti.cnr.it/) sviluppato anch'esso presso il laboratorio NMIS. MultiMatch costituisce un'evoluzione significativa dei motori di ricerca specializzati, consentendo la "ricerca di oggetti complessi" ottenuta tramite la combinazione di strumenti per l'individuazione nel web e presso fornitori istituzionali (quali ad esempio, musei, archivi storici, ecc.) di oggetti di CH (focussed crawling) con tecniche che permettono una descrizione dettagliata degli oggetti digitali che fa uso della notevole quantità di metadati descrittivi presenti. Il contenuto selezionato (costituito di testi in diverse lingue, immagini, video, audio) viene analizzato in modo da consentire una classificazione automatica basata su informazioni semanticamente rilevanti ed i contenuti e le descrizioni ottenute vengono indicizzate per consentirne la ricerca sulla base delle richieste degli utenti. La ricerca di oggetti di CH può avvenire specificando richieste testuali nella lingua scelta dall'utente, indipendentemente dalla lingua nella quale i documenti sono scritti. L'attuale versione del sistema consente di utilizzare quattro diverse lingue - Italiano, Inglese, Spagnolo, Olandese - e verrà estesa con altre lingue nel prossimo futuro. Il motore di ricerca può tradurre automaticamente le richieste degli utenti nelle diverse lingue, oppure può operare in modalità interattiva per ovviare ai problemi legati alle ambiguità che sorgono dalla traduzione automatica, consentendo così una migliore qualità dei risultati ottenuti. Le ricerche testuali utilizzano sia il testo presente nei documenti che la trascrizione (ottenuta automaticamente) dai file audio e video indicizzati. Dopo aver formulato una prima richiesta testuale, gli utenti possono raffinare la ricerca al fine di individuare gli oggetti cercati; questa fase di raffinamento può essere ancora di tipo testuale oppure può coinvolgere gli altri media: ad esempio, partendo da una foto possono essere cercate tutte le foto che hanno una similarità visuale con essa. L'utente ha la possibilità di passare da una modalità di ricerca all'altra durante l'intera sessione. Infine, il sistema fornisce diverse modalità di visualizzazione dei risultati ottenuti, suddivisi per lingua e per tipo di dato ed ordinati in base alla rilevanza che hanno per la richiesta dell'utente. Ulteriori evoluzioni previste consentiranno di visualizzare le relazioni esistenti tra i diversi oggetti digitali trovati, presentando ad esempio le relazioni che esistono tra le opere di due diversi autori, oppure le relazioni che esistono nell'ubicazione degli oggetti digitali trovati, o le relazioni temporali tra i diversi oggetti.
Il motore di ricerca MultiMatch ha una architettura software scalabile sia per il numero di utenti che possono accedere contemporaneamente al sistema che per la quantità di oggetti digitali gestibili. Questo ne permette l'utilizzo in ambiti molto diversi, dalla piccola utenza - ad esempio piccoli archivi - sino ad utenti interessati ad indicizzare la maggior parte degli oggetti di CH presenti nel web.