Focus

L'Italiano nella nuova generazione di Internet

Anche nell'era digitale, la lingua resta la chiave di accesso primaria e il veicolo più naturale dell'informazione. Sebbene l'inglese abbia rappresentato fino a poco tempo fa una specie di lingua franca del Web, la partecipazione delle culture nazionali agli sviluppi della società dell'informazione può essere misurata dalla quantità di documenti nella loro lingua disponibili in rete.
Questa mole vertiginosamente crescente di testi multilingui ha imposto la necessità di sviluppare tecnologie che automatizzino l'uso delle lingue umane nei processi di trasmissione, ricezione, decodifica ed estrazione dell'informazione, al fine di ottimizzarne lo scambio, preservando al tempo stesso la diversità culturale.
L'Istituto di Linguistica Computazionale del CNR di Pisa svolge da anni un ruolo fondamentale nello sviluppo di tecnologie, prodotti e servizi per il trattamento automatico dell'italiano.
E' stato tra i primi istituti a intraprendere ricerche nel settore del trattamento automatico delle lingue (TAL) e oggi ha una riconosciuta posizione di Centro di Eccellenza, a livello nazionale e internazionale.
L'attività di ricerca è stata condotta confrontandosi e cooperando con le maggiori istituzioni pubbliche e private operanti nel settore del TAL. L'ILC attraverso le sue attività di programmazione strategica, di coordinamento di attività internazionali e di proposta di nuovi paradigmi nel settore ha spesso indirizzato la comunità internazionale verso obiettivi ritenuti prioritari.
Le ricerche di base svolte dall'ILC sia con i finanziamenti del CNR sia - e soprattutto - con cospicui finanziamenti esterni (in particolare europei ma anche nazionali) hanno portato allo sviluppo di una piattaforma ormai consolidata di risorse, metodi, modelli, strumenti per il trattamento automatico dell'italiano.
Tra questi rivestono un ruolo centrale:

  • le risorse linguistiche di base che costituiscono l'infrastruttura necessaria per il TAL, in particolare:
    1. estesi insiemi formalizzati di dati, ovvero corpora testuali annotati ai vari livelli di descrizione linguistica, lessici computazionali, ontologie, reti semantiche, repertori terminologici, grammatiche, ecc.;
    2. tecnologie linguistiche e strumenti - robusti, estensibili, adattabili, integrabili - per analisi multi-livello di testi;
  • strumenti e tecniche di acquisizione e specializzazione di "conoscenza" linguistica ed extra-linguistica (ad esempio, nomi propri, terminologia specialistica, ecc.) da corpora testuali e dal Web, per creare risorse linguistiche innovative e "dinamiche" che si auto-arricchiscono e adattano a nuovi contesti, orientate verso il trattamento dell'informazione semantica multilingue e del 'contenuto';
  • la definizione di standard internazionali per risorse lessicali, ontologiche, testuali e multimodali.

Le ricadute applicative di queste tecnologie si identificano nella creazione di una nuova generazione di applicazioni per la gestione dei contenuti digitali, capaci di trasformare insiemi di documenti in conoscenza digitale. Un effetto non secondario è la promozione dell'italiano per accedere al contenuto su Internet, come passo necessario per la presenza dell'italiano nel futuro del Semantic Web. Tra gli scenari applicativi in cui queste tecnologie rivestono un ruolo cruciale si annoverano il "question answering", la produzione e gestione di e-content, l'interazione uomo-macchina.