Focus

Dal testo alla conoscenza: le tecnologie della lingua per il Knowledge Management

Malgrado l'enorme e sempre crescente diffusione di prodotti e contenuti multimediali, la stragrande maggioranza di informazioni digitali non strutturate di cui abbiamo bisogno per esigenze di lavoro e di studio, o per far fronte alle mille incombenze pratiche della vita quotidiana, è offerta ancora oggi in forma di testo. Poter disporre di queste informazioni non significa soltanto localizzarle e avere il diritto di utilizzarle, ma anche riuscire a selezionarle in modo rapido, intelligente e flessibile, rispondente ai propri scopi o a al proprio punto di vista. Il crescente sviluppo delle tecnologie informatiche per l'acquisizione e la gestione automatiche di dati testuali intende rispondere proprio a questa sfida, dal momento che avere troppe informazioni è spesso equivalente a non averne affatto. Nonostante il loro rapido progresso e i considerevoli successi raggiunti, tuttavia, tecnologie quali l'Information Retrieval, il Text Data Mining e la Text classification, continuano a scontrarsi con un problema fondamentale: l'accesso effettivo al contenuto di un testo passa attraverso la comprensione delle strutture linguistiche mediante le quali quel contenuto viene rappresentato. Non c'è conoscenza, senza conoscenza linguistica.

Il sistema T2K (Text to Knowledge) progettato e sviluppato dall'Istituto di Linguistica Computazionale di Pisa in collaborazione con il Dipartimento di Linguistica dell'Università di Pisa, si propone di offrire una batteria integrata di strumenti avanzati di analisi linguistica del testo, analisi statistica e apprendimento automatico del linguaggio, destinati a offrire una rappresentazione accurata del contenuto di una base documentale non strutturata, per scopi di indicizzazione avanzata e navigazione intelligente.

T2K trasforma le conoscenze implicitamente codificate all'interno di un corpus di testi in conoscenza esplicitamente strutturata: il risultato finale di questo processo interpretativo spazia dall'acquisizione di conoscenze lessicali e terminologiche complesse all'individuazione di strutture sintattiche e discorsive, alla strutturazione ontologica.

Per arrivare a identificare i concetti rilevanti e più caratterizzanti i documenti di un certo dominio di interesse, T2K impiega lo stato dell'arte della ricerca in linguistica computazionale. I termini acquisiti da T2K possono essere unità lessicali monorematiche come monitoraggio o audit oppure unità lessicali polirematiche come Quadro Comunitario di Sostegno, obiettivi specifici, progetto integrato, autorità di gestione, autorità di pagamento, scheda di misura, ecc. La compilazione di un repertorio di terminologia di dominio sulla base delle concrete attestazioni nei testi costituisce il
risultato della prima fase operativa di T2K sulla base del quale è possibile condurre un'indicizzazione terminologica dei documenti.

I termini che formano il glossario terminologico acquisito possono essere a loro volta raggruppati secondo diverse relazioni di similarità semantica. Ad esempio autorità di gestione e autorità di pagamento condividono un concetto più generico di AUTORITÀ a cui possono essere entrambi ricondotti ad un certo grado di astrazione. La strutturazione concettuale operata da T2K non è tuttavia circoscritta alle relazioni gerarchiche di iperonimia/iponimia appena esemplificate. T2K è anche in grado di identificare classi di termini semanticamente correlati come ad esempio {finanziamento sostegno servizi aiuto}, {apprendimento interesse istruzione} ecc. creando così i presupposti per la formazione di classi di "quasi sinonimi". L'organizzazione e la strutturazione dei termini secondo relazioni gerarchiche e di quasi-sinonimia rappresenta il risultato della successiva fase operativa di T2K sulla base della quale è possibile condurre un'indicizzazione concettuale dei testi.


Un sistema di conoscenza non è costituito solo da concetti che si riferiscono a entità del dominio, ma anche di processi, azioni ed eventi che vedono coinvolte queste entità secondo ruoli e funzioni diverse. Ad esempio, un particolare tipo di Responsabile può controllare o dirigere un certo dipartimento, emettere delibere, prendere particolari decisioni, ecc. Gli sviluppi più recenti di T2K vanno nella direzione appena delineata, cercando di identificare le relazioni più tipiche che legano le entità e i concetti identificati con il fine ultimo di arrivare a ricostruire dai testi una "mappa" semantica del dominio esplorato.

In T2K, il processo semi-automatico di estrazione terminologico-concettuale permette all'utente di validare i risultati prodotti dal sistema e di partecipare in maniera cooperativa al processo di costruzione dell'ontologia di riferimento sulla base della quale condurre l'annotazione semantica dei testi. L'annotazione avviene attraverso l'associazione di metadati XML a ciascun testo creando così i presupposti per una sempre crescente e diretta interoperabilità con sistemi automatici per la produzione di contenuti digitali selezionati e strutturati dinamicamente su misura, per diversi profili di utenza.

Versioni prototipali di T2K sono già operative su alcuni portali della pubblica amministrazione e sono state applicate per l'indicizzazione di contenuti didattici multimediali. In questo momento è in corso l'integrazione della tecnologia T2K nel sistema di gestione informatica di documentazione scientifica del CNR.

Immagini: