Focus

LINGUISTIC MINER: La miniera della Lingua

Strumento integrato per la creazione, strutturazione, mantenimento di un grande deposito di materiali testuali in lingua italiana, di strumenti / tecnologie per l'estrazione di conoscenza linguistica, per lo sfruttamento a fini linguistici di un grande giacimento di testi.


Alla fine degli anni '90 la rivoluzione 'Internet' ha aperto nuove e multidisciplinari prospettive di ricerca ed ha reso possibile la fruizione della più ricca banca dati del mondo, un insieme eterogeneo di dati, in gran parte testuali, che viene continuamente incrementato.
Tale enorme giacimento di materiale testuale ha ispirato la creazione del progetto "Linguistic Miner", un progetto nato nell'Istituto di Linguistica Computazionale, che ha come obiettivo la costruzione di un sistema integrato che raccolga grandi quantità di testi in lingua italiana, li analizzi linguisticamente ed infine ne estragga automaticamente conoscenza linguistica utilizzabile per scopi molteplici: didattici, editoriali, culturali, etc. Il progetto nasce da una considerazione preliminare a tutti i sistemi di analisi linguistica corpus based: una lingua, rappresentata da un insieme, il più grande possibile, di testi delle più varie tipologie è la miglior fonte di informazione linguistica, a qualunque livello di analisi la si consideri. Quanto più grandi sono i corpora disponibili e quanto più rappresentano in maniera eterogenea i vari ambiti linguistici (differenziati secondo le tipologie comunicative) tanto maggiore è la loro rappresentatività della realtà linguistica di una lingua. Importante sarà in questo scenario elaborare tecniche che permettano di monitorare continuamente il bilanciamento tra i vari settori della LM. Quindi la capacità di costruire grandi corpora di riferimento di una lingua è il primo e fondamentale obiettivo; non meno importante è poi la necessità di poter creare e disporre di efficaci strumenti per la gestione di tali corpora, sia per la loro analisi che per la realizzazione automatica di sintesi linguistiche.
Il progetto parte dalla esperienza storicamente sviluppata all'interno dell'ILC nel settore dell'analisi testuale che ha portato anche allo sviluppo del pacchetto di strumenti di analisi linguistica PiSystem, basato sul motore DBT (Data Base Testuale) con moduli di analisi morfologica, di tagging / lemmatizzazione automatica e di "linguistic pattern matching".
Il progetto prevede l'acquisizione di testi provenienti dalle più svariate fonti (dati web e non web). Se per questi ultimi (ad esempio banche dati testuali di letteratura e/o di articoli di quotidiani e riviste) esistono già modalità consolidate di acquisizione, di codifica e di catalogazione, per il recupero di dati web sono state realizzate procedure di acquisizione automatica (spider) di siti ad aggiornamento periodico ed altre per lo scaricamento ragionato e guidato da scelte dei ricercatori. Il progetto prevede infatti l'arricchimento costante del giacimento di testi. Le procedure di acquisizione hanno il compito di individuare e scaricare pagine testo in formato HTML. Appositi programmi di analisi sono stati sviluppati per identificare in tali pagine la parte testuale, di codificarla opportunamente ed infine di classificarla per inserirla nel grande archivio della miniera della lingua. Lo strumento di codifica è stato realizzato anche per altre tipologie di materiale disponibile (Word, RTF, PDF). La qualità dei risultati ottenuti da tali procedure di analisi linguistica automatica dipende dalla quantità di elementi del testo correttamente etichettati, per questo è molto importante predisporre il pre-editing automatico dei materiali, anche al fine di ottimizzare le successive elaborazioni. A questo scopo sono state inserite e raffinate procedure, mutuate in parte dal progetto PiSystem, per l'individuazione ed il trattamento di vari fenomeni quali: struttura del testo, sigle, numeri, abbreviazioni, nomi propri (parole isolate o espressioni), collegamenti ipertestuali, indirizzi di posta elettronica, etc. La classificazione di primo livello prevede di categorizzare ogni testo immesso permettendo analisi mirate e risultati più significativi. E' prevista una fase di analisi linguistica automatica di tutti i testi inseriti nel giacimento, i cui risultati vengono archiviati direttamente nel giacimento creando una banca dati linguistica estremamente importante.
La fase di sfruttamento dei dati testuali che verranno stratificandosi all'interno della miniera costituisce il momento più importante di tutto il progetto. Gli strumenti già disponibili, l'ambiente PiSystem con la sua procedura di base DBT, che sono stati opportunamente integrati e riadattati, costituiscono il nucleo centrale del processo di estrazione e di sintesi delle informazioni linguistiche. Già in questa fase di integrazione di dati testuali nella miniera possono essere ottenuti importanti operando incroci secondo la tipologia dei testi analizzati. La definizione di pattern linguistici e la loro successiva applicazione alla miniera e/o ad un suo sottoinsieme, opportunamente selezionato costituisce un importante strumento per la analisi e la sintesi della lingua, permettendo non soltanto la ricerca di informazioni e la verifica di ipotesi linguistiche ma anche la costruzione di banche-dati di quanto ricercato, analizzato, estratto e sintetizzato.
È importante sottolineare come la fase di costruzione di modelli e strumenti per tale compito specifico costituisca di per sé un obiettivo fondamentale dell'attività del progetto, in quanto tali modelli, una volta verificati e confortati da dati statistici, possono contribuire, come fonte di conoscenza, ad ulteriori applicazioni in altri progetti.
La grande quantità di testo e la sua articolazione in sottoinsiemi relativamente alla tipologia di linguaggio offre una interessante prospettiva di studio e di ricerca. Obiettivo del progetto è anche quello di offrire le proprie risorse per verificare ipotesi linguistiche, per creare nuovi moduli di analisi e di sintesi linguistica.
La miniera della lingua si rivela importante strumento per l'estrazione automatica di risorse linguistiche da grandi archivi testuali e valido supporto per studenti, linguisti, traduttori, lessicografi e per la realizzazione e perfezionamento di tools informatici nell'ambiente dell'industria della lingua.