Home |  English version |  Mappa |  Commenti |  Sondaggio |  Staff |  Contattaci Cerca nel sito  
Focus per Istituto ILC

L'Italiano nella nuova generazione di Internet (2002)  

Anche nell'era digitale, la lingua resta la chiave di accesso primaria e il veicolo più naturale dell'informazione. Sebbene l'inglese abbia rappresentato fino a poco tempo fa una specie di lingua franca del Web, la partecipazione delle culture nazionali agli sviluppi della società dell'informazione può essere misurata dalla quantità di documenti nella loro lingua disponibili in rete.
Questa mole vertiginosamente crescente di testi multilingui ha imposto la necessità di sviluppare tecnologie che automatizzino l'uso delle lingue umane nei processi di trasmissione, ricezione, decodifica ed estrazione dell'informazione, al fine di ottimizzarne lo scambio, preservando al tempo stesso la diversità culturale.
L’Istituto di Linguistica Computazionale del CNR di Pisa svolge da anni un ruolo fondamentale nello sviluppo di tecnologie, prodotti e servizi per il trattamento automatico dell’italiano.
E’ stato tra i primi istituti a intraprendere ricerche nel settore del trattamento automatico delle lingue (TAL) e oggi ha una riconosciuta posizione di Centro di Eccellenza, a livello nazionale e internazionale.
L’attività di ricerca è stata condotta confrontandosi e cooperando con le maggiori istituzioni pubbliche e private operanti nel settore del TAL. L’ILC attraverso le sue attività di programmazione strategica, di coordinamento di attività internazionali e di proposta di nuovi paradigmi nel settore ha spesso indirizzato la comunità internazionale verso obiettivi ritenuti prioritari. Le ricerche di base svolte dall’ILC sia con i finanziamenti del CNR sia - e soprattutto - con cospicui finanziamenti esterni (in particolare europei ma anche nazionali) hanno portato allo sviluppo di una piattaforma ormai consolidata di risorse, metodi, modelli, strumenti per il trattamento automatico dell’italiano.
Tra questi rivestono un ruolo centrale:

  • le risorse linguistiche di base che costituiscono l’infrastruttura necessaria per il TAL, in particolare:
    1. estesi insiemi formalizzati di dati, ovvero corpora testuali annotati ai vari livelli di descrizione linguistica, lessici computazionali, ontologie, reti semantiche, repertori terminologici, grammatiche, ecc.;
    2. tecnologie linguistiche e strumenti - robusti, estensibili, adattabili, integrabili - per analisi multi-livello di testi;
  • strumenti e tecniche di acquisizione e specializzazione di “conoscenza” linguistica ed extra-linguistica (ad esempio, nomi propri, terminologia specialistica, ecc.) da corpora testuali e dal Web, per creare risorse linguistiche innovative e “dinamiche” che si auto-arricchiscono e adattano a nuovi contesti, orientate verso il trattamento dell’informazione semantica multilingue e del ‘contenuto’;
  • la definizione di standard internazionali per risorse lessicali, ontologiche, testuali e multimodali.

Le ricadute applicative di queste tecnologie si identificano nella creazione di una nuova generazione di applicazioni per la gestione dei contenuti digitali, capaci di trasformare insiemi di documenti in conoscenza digitale. Un effetto non secondario è la promozione dell’italiano per accedere al contenuto su Internet, come passo necessario per la presenza dell’italiano nel futuro del Semantic Web. Tra gli scenari applicativi in cui queste tecnologie rivestono un ruolo cruciale si annoverano il “question answering”, la produzione e gestione di e-content, l’interazione uomo-macchina.


Digital Library per le discipline umanistiche  (2002)  

L’Istituto di Linguistica Computazionale (ILC) è storicamente all’avanguardia nello sviluppo di metodologie e strumenti per il trattamento del testo. Particolare interesse è proiettato nel settore “Digital Library per le Scienze Umane”. Una delle frontiere più interessanti della Biblioteca digitale è rappresentata senza dubbio dalla parola “integrazione”: integrazione sia nel senso già ben noto del “multimediale” sia come cooperazione funzionale di diverse modalità di accesso ai materiali. Il ruolo che la riproduzione digitale delle immagini ha assunto da qualche anno nell'ambito della filologia del testo viene considerato strategico anche in relazione allo sviluppo delle "biblioteche digitali". Cresce l'interesse alla ricerca e allo sviluppo di prodotti software in grado di aumentare la fruibilità telematica del patrimonio documentario e soprattutto librario. Le procedure di analisi testuale, patrimonio dell’ILC, possono essere integrate in sistemi bibliotecari, associando le funzioni di accesso al testo (immagine e/o full text) in nuove tipologie di servizio da affiancare a quelle tradizionali. Da citare le esperienze del CIBIT - Biblioteca Italiana Telematica (integrazione del motore di analisi testuale DBT) e quelle relative alla gestione di periodici in formato digitale in collaborazione con il Warburg Institute di Londra e con l’università di Trento (progetto CIRCE riviste culturali europee).
La collaborazione tra linguistica computazionale e “Digital library” comprende inoltre: tecniche di normalizzazione della terminologia; linguaggi controllati per la creazione di strutture ontologiche; implementazione di thesauri attraverso clustering ed analisi statistica; identificazione di aree semantiche e di disambiguazione della polisemia strutturale e sistemi di retrieval cross-anguage.
A partire dal III Programma Quadro della Comunità Europea (CE), l'ILC ha partecipato attivamente alla costruzione di sistemi di studio ed analisi di documenti digitali per produrre edizioni elettroniche per papirologi, epigrafisti, filologi. Alcuni moduli sono stati depositati come brevetto CNR; altri prevedono il trasferimento tecnologico verso la realtà industriale. Prevediamo, infatti, come è emerso in un recente incontro presso l'Accademia Nazionale dei Lincei e come risulta dal programma dei lavori del Convegno sostenuto dall'ESF programmato per il settembre 2003, che le metodologie e i sistemi realizzati contribuiscano in maniera determinante a far nascere nuove figure di "filologo computazionale" e di "bibliotecario digitale". L'ILC, in seguito alla partecipazione a progetti del Ministero per i Beni e le Attività Culturali ("Progetto Bibliophilo" -Programma Parnaso- e "Progetto FAD/Fondi e Archivi Digitali" -Legge Biscardi per gli Istituti Culturali-), sta indicando le linee guida che valgano come standard per acquisire in formato digitale documenti di particolare valore storico e filologico nella prospettiva di una loro fruizione specialistica.


COSTRUIRE UN DIZIONARIO È' UN GIOCO DA RAGAZZI!! (2003)  

Imparare ad usare senza troppa fatica e difficoltà il dizionario, riuscire a studiare in modo divertente la lingua materna è possibile… Basta usare Addizionario, un software multimediale per la scuola elementare, realizzato dal gruppo di ricerca dell’ILC Strumenti multimediali per la didattica delle lingue, in collaborazione col Dipartimento di Informatica dell’Università di Torino. Lo strumento propone modi innovativi e accattivanti per migliorare il linguaggio e lo sviluppo cognitivo dei bambini della scuola elementare e un modo diverso di avvicinarsi al dizionario, inteso non solo come testo da consultare, ma anche testo da costruire, smontare e rimontare in accordo con le proprie esigenze e i propri gusti. Addizionario è costituito da due moduli strettamente collegati: un dizionario per bambini, i cui autori sono 400 bambini delle scuole elementari e un Quaderno attivo, lo strumento creativo con cui ogni bambino può costruire il suo dizionario personale completo di definizioni, esempi, racconti, disegni e suoni. Il software si adatta alle capacità personali dell’utente: attraverso l’esplorazione e la scoperta, attraverso la collaborazione con insegnanti e compagni, anche gli utenti con bisogni speciali riescono a portare a termine compiti generalmente considerati al di sopra delle loro capacità.
Recentemente è stata messa a punto anche una versione multilingue di Addizionario che permette ad ogni utente di costruire facilmente un’applicazione personale del programma in una qualsiasi lingua o dialetto, a partire da una delle cinque principali lingue europee (italiano, inglese, francese, spagnolo e tedesco).
La disponibilità di questo aggiornamento del software ha aperto ad Addizionario nuove e interessanti prospettive di utilizzo sia in Italia che all’estero. In Italia il software è attualmente utilizzato in molte scuole nell’ambito di laboratori multimediali di educazione linguistica, in particolare per l’apprendimento della lingua italiana e per l’inserimento scolastico dei bambini extracomunitari. All’estero, nell’ambito di un progetto “Socrates”, Galles e Asturie hanno condotto, grazie ad Addizionario, un’esperienza di insegnamento reciproco e scambio di conoscenze linguistiche e culturali tra bambini della stessa età appartenenti a comunità linguistiche diverse.
Attualmente Addizionario è utilizzato in un progetto di educazione interculturale, avviato in collaborazione con l’Università Autonoma di Città del Messico, che prevede la realizzazione del primo dizionario monolingue del Purépecha, lingua parlata da alcune comunità indigene della zona del Michoacán. Tale dizionario, unico nel suo genere, sarà un prodotto dell’intera comunità indigena, in quanto alla sua redazione contribuiranno, in fasi diverse, sia i bambini delle scuole elementari che i maestri, i genitori, i nonni per poter riaffermare la loro identità attraverso il riscatto e la rivitalizzazione della propria lingua materna.
La sfida che è stata raccolta avviando questo progetto è particolarmente stimolante, in quanto offre il privilegio di assistere alla “ri-nascita” di una lingua, a partire dalla negoziazione dell’ortografia, di cui attualmente non esiste uno stardard, all’individuazione della molteplicità dei sensi delle parole e delle relative varianti.


Tecnologie linguistiche e tutela dei minori (2003)  

Internet ripropone di continuo il delicato problema di come conciliare due diritti altrettanto fondamentali per cittadino: la tutela dei minori da contenuti offensivi e violenti e la libertà di espressione. Il fatto che questo si trasformi spesso in autentico dilemma è dimostrato dalla recente sentenza della Corte costituzionale americana lo scorso 29 giugno 2004, in cui la Corte è stata costretta a schierarsi dalla parte della libertà di espressione con il risultato di difendere ciò che non avrebbe voluto difendere, gli spacciatori di sesso via internet. La decisione è stata motivata dai limiti di una tecnologia non ancora capace di filtrare in maniera "chirurgica" il materiale in rete. La realizzazione di filtri Internet in grado di selezionare senza censurare resta dunque tuttora un traguardo ambizioso con un forte impatto sociale ed etico.

Il sistema di filtraggio POESIA (Public Open-source Environment for a Safer Internet Access), risultato dell'omonimo progetto europeo (IAP 2117/27572) che ha visto coinvolti 10 partecipanti accademici e industriali dall'Italia, la Spagna e la Francia al Regno Unito, può essere visto come un passo importante nella direzione di un filtraggio intelligente e selettivo dei contenuti Internet a tutela dei minori. POESIA affianca a tecniche standard di filtraggio (basate su liste di URLs o su classificazioni predefinite come PICS) tecnologie di avanguardia nei campi dell'elaborazione del linguaggio naturale e del trattamento delle immagini che gli permettono di operare le proprie scelte sulla base del contenuto testuale e iconografico.
L'Istituto di Linguistica Computazionale (ILC) del CNR di Pisa ha svolto il duplice ruolo di coordinatore del progetto e di sviluppatore del componente di filtraggio per pagine web in italiano. Partendo da una piattaforma ormai consolidata ed ampiamente sperimentata di risorse, metodi, e strumenti per il trattamento automatico dell'italiano, l'ILC ha messo a punto il componente per l'analisi e la classificazione del contenuto testuale di pagine web in italiano.
Questo componente combina tecnologie linguistiche consolidate di analisi dell'italiano con strumenti per l'acquisizione dinamica di conoscenza linguistica lessico-grammaticale da corpora testuali, basati sull'impiego di algoritmi di apprendimento automatico (o machine learning). Questa integrazione rappresenta un aspetto cruciale quando si va ad operare su depositi testuali in continua evoluzione come i siti Web che richiedono tecniche che siano in grado di adattarsi con rapidità ed efficienza a diversi domini applicativo-terminologici. Nel corso del progetto, il filtraggio del contenuto testuale è stato sperimentato su due domini specifici - la pornografia e il linguaggio volgare - con risultati più che incoraggianti. Il sistema, ripetutamente valutato dagli sviluppatori e dagli utenti finali su un vasto corpus di test, mostra una efficacia di filtraggio pari al 97% mentre le pagine erroneamente bloccate si aggirano intorno al 3%.
La natura open-source di POESIA fa sì che i risultati del progetto siano a disposizione della comunità che, oltre ad usarlo, può contribuire in modo significativo alla sua estensione ad altri domini, canali o ad altre lingue così come a tenerlo al passo con lo stato dell'arte. La versione finale del sistema può essere scaricata dall'indirizzo http://sourceforge.net/projects/poesia/.


Filologia Computazionale (2005)  

Il crescente sviluppo di documenti digitali che vengono messi a disposizione da parte di biblioteche ed archivi pubblici e privati apre interessanti prospettive per il settore degli studi umanistici noto col nome di “filologia del testo” o, più tecnicamente, “critica testuale”. Le facilitazioni nella lettura di documenti antichi, trasformati in immagini digitali, semplifica il lavoro di interpretazione dei testi e rende attuale la possibilità, spesso solo ipotizzata, di vedere collaborare allo studio di una stessa opera un gruppo di ricercatori coordinati in una struttura di rete. Questo scenario si sta realmente concretizzando proprio grazie all’attività di una specifica linea di ricerca attiva da alcuni anni presso l’ILC; essa ha potuto raggiungere risultati molto lusinghieri sulla base di importanti collaborazioni internazionali, che hanno consentito di ottenere cospicui finanziamenti Europei, e nazionali. Per quanto riguarda questo secondo settore, è opportuno citare i progetti patrocinati dal CNR, nell’ambito del Progetto Finalizzato Beni Culturali, dal MIUR, nel quadro del Programma Parnaso e dal MBAC, nell’ambito della Legge Biscardi per gli Istituti Culturali. L’innovazione tecnologica non si limita, tuttavia, alla produzione di strumenti critico-editoriali che hanno lo scopo di produrre edizioni scientifiche di testi sul web, ma prende in considerazione anche la progettazione e realizzazione di tool di analisi linguistica orientata, per le caratteristiche dei testi sui quali è stata eseguita la sperimentazione e sui quali, di conseguenza, si è acquisita maggiore esperienza, all’interrogazione più fine dei dati. In questo senso la ricerca di filologia computazionale presso l’ILC ha affinato programmi di analisi morfologica e morfo-sintattica che hanno prodotto risultati particolarmente significativi su documenti antichi in lingua latina. Il più noto di essi è rappresentato da CHLT-LEMLAT, uno strumento per l’analisi morfologica e la lemmatizzazione del latino, usato nei centri dove maggiori sono gli archivi testuali relativi a questa lingua: il Perseus Project, della Tufts University di Boston e il Newton Project, presso l’Imperial College di Londra. Anche se, ad una valutazione superficiale, potrebbe sembrare evidente che questa attività sia aliena da ricadute tecnologiche nel settore industriale, in effetti abbiamo verificato che la progettazione ha seguito criteri architetturali dei sistemi software tali da risultare utilizzabile anche in domini molto diversi da quelli per i quali essa è stata realizzata. Per esempio, il sistema di analisi morfologica del latino ha potuto essere integrato in una rete neurale artificiale di riconoscimento dei caratteri su libri a stampa antichi (che è brevetto CNR), affinché contrubuisse alla correzione automatica degli errori e alla proposta di forme linguistiche corrette. Lo stesso sistema si filologia computazionale per i documenti digitali, mettendo in rapporto immagini e testi, ha mostrato di essere suscettibile di importanti sviluppi nella radiodiagnostica digitale in ambiente clinico, o nella gestione e recupero dell’informazione di archivi di spartiti musicali.

Documento - Filologia Computazionale


Dal testo alla conoscenza: le tecnologie della lingua per il Knowledge Management  (2005)  

Malgrado l’enorme e sempre crescente diffusione di prodotti e contenuti multimediali, la stragrande maggioranza di informazioni digitali non strutturate di cui abbiamo bisogno per esigenze di lavoro e di studio, o per far fronte alle mille incombenze pratiche della vita quotidiana, è offerta ancora oggi in forma di testo. Poter disporre di queste informazioni non significa soltanto localizzarle e avere il diritto di utilizzarle, ma anche riuscire a selezionarle in modo rapido, intelligente e flessibile, rispondente ai propri scopi o a al proprio punto di vista. Il crescente sviluppo delle tecnologie informatiche per l’acquisizione e la gestione automatiche di dati testuali intende rispondere proprio a questa sfida, dal momento che avere troppe informazioni è spesso equivalente a non averne affatto. Nonostante il loro rapido progresso e i considerevoli successi raggiunti, tuttavia, tecnologie quali l’Information Retrieval, il Text Data Mining e la Text classification, continuano a scontrarsi con un problema fondamentale: l’accesso effettivo al contenuto di un testo passa attraverso la comprensione delle strutture linguistiche mediante le quali quel contenuto viene rappresentato. Non c’è conoscenza, senza conoscenza linguistica.
Il sistema T2K (Text to Knowledge) progettato e sviluppato dall’Istituto di Linguistica Computazionale di Pisa in collaborazione con il Dipartimento di Linguistica dell’Università di Pisa, si propone di offrire una batteria integrata di strumenti avanzati di analisi linguistica del testo, analisi statistica e apprendimento automatico del linguaggio, destinati a offrire una rappresentazione accurata del contenuto di una base documentale non strutturata, per scopi di indicizzazione avanzata e navigazione intelligente.
T2K trasforma le conoscenze implicitamente codificate all’interno di un corpus di testi in conoscenza esplicitamente strutturata: il risultato finale di questo processo interpretativo spazia dall’acquisizione di conoscenze lessicali e terminologiche complesse all’individuazione di strutture sintattiche e discorsive, alla strutturazione ontologica.
Per arrivare a identificare i concetti rilevanti e più caratterizzanti i documenti di un certo dominio di interesse, T2K impiega lo stato dell’arte della ricerca in linguistica computazionale. I termini acquisiti da T2K possono essere unità lessicali monorematiche come monitoraggio o audit oppure unità lessicali polirematiche come Quadro Comunitario di Sostegno, obiettivi specifici, progetto integrato, autorità di gestione, autorità di pagamento, scheda di misura, ecc. La compilazione di un repertorio di terminologia di dominio sulla base delle concrete attestazioni nei testi costituisce il risultato della prima fase operativa di T2K sulla base del quale è possibile condurre un’indicizzazione terminologica dei documenti.
I termini che formano il glossario terminologico acquisito possono essere a loro volta raggruppati secondo diverse relazioni di similarità semantica. Ad esempio autorità di gestione e autorità di pagamento condividono un concetto più generico di AUTORITÀ a cui possono essere entrambi ricondotti ad un certo grado di astrazione. La strutturazione concettuale operata da T2K non è tuttavia circoscritta alle relazioni gerarchiche di iperonimia/iponimia appena esemplificate. T2K è anche in grado di identificare classi di termini semanticamente correlati come ad esempio {finanziamento sostegno servizi aiuto}, {apprendimento interesse istruzione} ecc. creando così i presupposti per la formazione di classi di “quasi sinonimi”. L’organizzazione e la strutturazione dei termini secondo relazioni gerarchiche e di quasi-sinonimia rappresenta il risultato della successiva fase operativa di T2K sulla base della quale è possibile condurre un’indicizzazione concettuale dei testi.

Un sistema di conoscenza non è costituito solo da concetti che si riferiscono a entità del dominio, ma anche di processi, azioni ed eventi che vedono coinvolte queste entità secondo ruoli e funzioni diverse. Ad esempio, un particolare tipo di Responsabile può controllare o dirigere un certo dipartimento, emettere delibere, prendere particolari decisioni, ecc. Gli sviluppi più recenti di T2K vanno nella direzione appena delineata, cercando di identificare le relazioni più tipiche che legano le entità e i concetti identificati con il fine ultimo di arrivare a ricostruire dai testi una “mappa” semantica del dominio esplorato.

In T2K, il processo semi-automatico di estrazione terminologico-concettuale permette all’utente di validare i risultati prodotti dal sistema e di partecipare in maniera cooperativa al processo di costruzione dell’ontologia di riferimento sulla base della quale condurre l’annotazione semantica dei testi. L’annotazione avviene attraverso l’associazione di metadati XML a ciascun testo creando così i presupposti per una sempre crescente e diretta interoperabilità con sistemi automatici per la produzione di contenuti digitali selezionati e strutturati dinamicamente su misura, per diversi profili di utenza.
Versioni prototipali di T2K sono già operative su alcuni portali della pubblica amministrazione e sono state applicate per l’indicizzazione di contenuti didattici multimediali. In questo momento è in corso l’integrazione della tecnologia T2K nel sistema di gestione informatica di documentazione scientifica del CNR.

Immagine - processi e risultati internedi


LINGUISTIC MINER: La miniera della Lingua (2005)  

Strumento integrato per la creazione, strutturazione, mantenimento di un grande deposito di materiali testuali in lingua italiana, di strumenti / tecnologie per l’estrazione di conoscenza linguistica, per lo sfruttamento a fini linguistici di un grande giacimento di testi.


Alla fine degli anni ’90 la rivoluzione ‘Internet’ ha aperto nuove e multidisciplinari prospettive di ricerca ed ha reso possibile la fruizione della più ricca banca dati del mondo, un insieme eterogeneo di dati, in gran parte testuali, che viene continuamente incrementato. Tale enorme giacimento di materiale testuale ha ispirato la creazione del progetto “Linguistic Miner”, un progetto nato nell’Istituto di Linguistica Computazionale, che ha come obiettivo la costruzione di un sistema integrato che raccolga grandi quantità di testi in lingua italiana, li analizzi linguisticamente ed infine ne estragga automaticamente conoscenza linguistica utilizzabile per scopi molteplici: didattici, editoriali, culturali, etc. Il progetto nasce da una considerazione preliminare a tutti i sistemi di analisi linguistica corpus based: una lingua, rappresentata da un insieme, il più grande possibile, di testi delle più varie tipologie è la miglior fonte di informazione linguistica, a qualunque livello di analisi la si consideri. Quanto più grandi sono i corpora disponibili e quanto più rappresentano in maniera eterogenea i vari ambiti linguistici (differenziati secondo le tipologie comunicative) tanto maggiore è la loro rappresentatività della realtà linguistica di una lingua. Importante sarà in questo scenario elaborare tecniche che permettano di monitorare continuamente il bilanciamento tra i vari settori della LM. Quindi la capacità di costruire grandi corpora di riferimento di una lingua è il primo e fondamentale obiettivo; non meno importante è poi la necessità di poter creare e disporre di efficaci strumenti per la gestione di tali corpora, sia per la loro analisi che per la realizzazione automatica di sintesi linguistiche.
Il progetto parte dalla esperienza storicamente sviluppata all’interno dell’ILC nel settore dell’analisi testuale che ha portato anche allo sviluppo del pacchetto di strumenti di analisi linguistica PiSystem, basato sul motore DBT (Data Base Testuale) con moduli di analisi morfologica, di tagging / lemmatizzazione automatica e di “linguistic pattern matching”. Il progetto prevede l’acquisizione di testi provenienti dalle più svariate fonti (dati web e non web). Se per questi ultimi (ad esempio banche dati testuali di letteratura e/o di articoli di quotidiani e riviste) esistono già modalità consolidate di acquisizione, di codifica e di catalogazione, per il recupero di dati web sono state realizzate procedure di acquisizione automatica (spider) di siti ad aggiornamento periodico ed altre per lo scaricamento ragionato e guidato da scelte dei ricercatori. Il progetto prevede infatti l’arricchimento costante del giacimento di testi. Le procedure di acquisizione hanno il compito di individuare e scaricare pagine testo in formato HTML. Appositi programmi di analisi sono stati sviluppati per identificare in tali pagine la parte testuale, di codificarla opportunamente ed infine di classificarla per inserirla nel grande archivio della miniera della lingua. Lo strumento di codifica è stato realizzato anche per altre tipologie di materiale disponibile (Word, RTF, PDF). La qualità dei risultati ottenuti da tali procedure di analisi linguistica automatica dipende dalla quantità di elementi del testo correttamente etichettati, per questo è molto importante predisporre il pre-editing automatico dei materiali, anche al fine di ottimizzare le successive elaborazioni. A questo scopo sono state inserite e raffinate procedure, mutuate in parte dal progetto PiSystem, per l’individuazione ed il trattamento di vari fenomeni quali: struttura del testo, sigle, numeri, abbreviazioni, nomi propri (parole isolate o espressioni), collegamenti ipertestuali, indirizzi di posta elettronica, etc. La classificazione di primo livello prevede di categorizzare ogni testo immesso permettendo analisi mirate e risultati più significativi. E’ prevista una fase di analisi linguistica automatica di tutti i testi inseriti nel giacimento, i cui risultati vengono archiviati direttamente nel giacimento creando una banca dati linguistica estremamente importante. La fase di sfruttamento dei dati testuali che verranno stratificandosi all’interno della miniera costituisce il momento più importante di tutto il progetto. Gli strumenti già disponibili, l’ambiente PiSystem con la sua procedura di base DBT, che sono stati opportunamente integrati e riadattati, costituiscono il nucleo centrale del processo di estrazione e di sintesi delle informazioni linguistiche. Già in questa fase di integrazione di dati testuali nella miniera possono essere ottenuti importanti operando incroci secondo la tipologia dei testi analizzati. La definizione di pattern linguistici e la loro successiva applicazione alla miniera e/o ad un suo sottoinsieme, opportunamente selezionato costituisce un importante strumento per la analisi e la sintesi della lingua, permettendo non soltanto la ricerca di informazioni e la verifica di ipotesi linguistiche ma anche la costruzione di banche-dati di quanto ricercato, analizzato, estratto e sintetizzato.
È importante sottolineare come la fase di costruzione di modelli e strumenti per tale compito specifico costituisca di per sé un obiettivo fondamentale dell’attività del progetto, in quanto tali modelli, una volta verificati e confortati da dati statistici, possono contribuire, come fonte di conoscenza, ad ulteriori applicazioni in altri progetti.
La grande quantità di testo e la sua articolazione in sottoinsiemi relativamente alla tipologia di linguaggio offre una interessante prospettiva di studio e di ricerca. Obiettivo del progetto è anche quello di offrire le proprie risorse per verificare ipotesi linguistiche, per creare nuovi moduli di analisi e di sintesi linguistica. La miniera della lingua si rivela importante strumento per l’estrazione automatica di risorse linguistiche da grandi archivi testuali e valido supporto per studenti, linguisti, traduttori, lessicografi e per la realizzazione e perfezionamento di tools informatici nell’ambiente dell’industria della lingua.


UNA RISORSA DIALETTALE IN RETE: ALT-WEB (2006)  

UNA RISORSA DIALETTALE IN RETE: ALT-WEB

Cosa è ALT-Web?
ALT-Web è l’Atlante Lessicale Toscano (ALT) in rete, il primo atlante linguistico interrogabile online nel panorama nazionale italiano e uno dei pochi a livello internazionale.

A chi è destinato ALT-Web?
ALT-Web si rivolge a un’ampia e variegata utenza che va dagli addetti ai lavori (tipicamente dialettologi, linguisti ed etno-linguisti), agli insegnanti di tutte le scuole di ordine e grado, agli operatori culturali (ad esempio, personale di musei e di istituzioni culturali pubbliche e private) fino al cittadino navigatore di Internet che voglia capire di più della propria identità linguistica e culturale.

Dove può essere trovato ALT-Web?
ALT-Web può essere raggiunto in rete all’indirizzo http://serverdbt.ilc.cnr.it/altweb/

Da cosa nasce ALT-Web?
ALT-Web ripropone l’Atlante Lessicale Toscano pubblicato nel 2000 in versione rinnovata e arricchita. L’ALT è il frutto di un’impresa pluridecennale ideata e diretta da Gabriella Giacomelli, affiancata da un comitato di redazione composto da Luciano Agostiniani, Patrizia Bellucci, Luciano Giannelli, Simonetta Montemagni, Annalisa Nesi, Matilde Paoli, e Teresa Poggi Salani e da Eugenio Picchi che ne ha curato il processo di informatizzazione. L’idea di un atlante lessicale toscano nasce dalla constatazione della varietà del lessico toscano, da luogo a luogo e, nello stesso luogo, tra persone di diversa generazione e di diverso livello socioculturale. L’impresa si è focalizzata sulla rilevazione delle condizioni di variabilità geografica e sociale che, relativamente al lessico, sussistono all’interno del repertorio dei parlanti della regione toscana. Le ricerche sul campo sono state condotte in un arco temporale che va dal 1974 al 1986 sulla base di un questionario di 745 domande, finalizzato non solo a riconoscere e qualificare lo “specifico toscano” nel lessico tradizionale della regione (e naturalmente le sue differenziazioni interne), ma anche a segnalare quei particolari luoghi di frizione in cui la tradizione toscana entra in conflitto con la lingua italiana standard. La ricerca si è svolta in una rete di 224 punti di inchiesta, con un campione di informatori che per ogni centro varia tra 4 e 10, rappresentativo per quanto possibile delle variabili età, sesso e status socio-culturale, e che assomma per l’intero territorio a 2193 unità.

Perché ALT-Web?
L’idea di ALT-Web nasce dalla convinzione che il patrimonio linguistico e culturale toscano testimoniato nell’Atlante Lessicale Toscano non potesse rimanere chiuso nel “cofanetto” della pubblicazione su CD-rom apparsa nel 2000, ma dovesse essere restituito in forma facilmente fruibile alla comunità più vasta di cui l’opera rappresenta testimonianza linguistica e culturale nonché essere messo a disposizione della comunità scientifica nazionale e internazionale degli studiosi. ALT-Web si presenta come risorsa educativa per la formazione culturale e sociale del cittadino che fornisce un contributo alla conservazione della memoria dell’identità culturale toscana e costituisce al contempo un prezioso punto di riferimento per lo studio di dinamiche linguistiche sia a livello geografico sia a livello socio-culturale.

Che cosa contiene ALT-Web?
ALT-Web contiene l’intero corpus dei materiali dialettali raccolti sul campo con le inchieste dell’ALT. Si tratta di un vasto patrimonio culturale racchiuso complessivamente in 380 mila schede che descrivono più di 84.000 attestazioni dialettali diverse testimoniate nelle località indagate. Le schede raccolgono sia le risposte alle 745 domande rivolte in 224 località toscane a più di 2000 informatori su particolari settori del lessico (il tempo cronologico e meteorologico, le forme del terreno, la botanica e l’agricoltura, la zoologia e l’allevamento, la casa, l’uomo) sia notazioni integrative emerse nel corso delle inchieste come fraseologia più o meno cristallizzata, testimonianze paremiologiche o di letteratura popolare, nonché brevi etnotesti che forniscono frammenti utili alla ricostruzione di attività tradizionali.

Come si consulta ALT-Web?
In ALT-Web l’accesso al corpus dei materiali dialettali viene fornito secondo modalità differenziate tese a facilitare e a guidare la fruizione dei materiali dialettali ed etnografici in esso contenuti da parte un’utenza variegata. A una modalità di accesso guidato che si rivolge in prima istanza al pubblico più vasto, ma anche a coloro che intendono familiarizzare col materiale ALT prima di passare a ricerche più complesse, si affianca la modalità di accesso avanzato che permette all’utente di formulare liberamente le proprie richieste creando percorsi personalizzati di ricerca. Nella modalità di accesso guidata, al navigatore della rete dell’ALT vengono proposti percorsi incentrati sulle richieste canoniche riguardanti i materiali di un atlante linguistico: le attestazioni dialettali raccolte in una località e le risposte raccolte in relazione a una specifica domanda. Nella modalità di accesso avanzato viene invece proposta al navigatore una vasta gamma di parametri per la definizione di percorsi complessi nel corpus dei materiali dialettali raccolti, incluso un insieme di chiavi di selezione basate sulle caratteristiche generazionali e socio-culturali degli informatori, sull’uso e la competenza dichiarati in relazione alla voce dialettale, sulla pertinenza rispetto a una varietà e/o registro linguistico, ecc. Al fine di avvicinare un’opera specialistica come un atlante linguistico al pubblico più vasto, ALT-Web include anche: una modalità di accesso semantico al corpus ALT che rende possibile il recupero delle attestazioni dialettali in base al concetto che esprimono o, più genericamente, a cui si correlano; la possibilità di interrogare il corpus dialettale dell’ALT a prescindere da dettagli della realizzazione fonetica e secondo le convenzioni dell’ortografia italiana.

A quali domande può rispondere ALT-Web?
Cosa si mangia a Carnevale in Toscana? C’è chi mangia i “cenci”, chi gli “stracci”, i “fiocchi”, gli “strùfoli” e chi le “chiacchiere”. Essere additato come un “broccione” è un insulto? A seconda di dove ciò avviene può esserlo o meno. Gli interrogativi tipici a cui ALT-Web fornisce una risposta riguardano le denominazioni di uno stesso concetto oppure i significati assunti da una stessa parola sul territorio toscano. Ma non sono i soli. Sono infatti numerosi e di varia natura i quesiti che possono trovare una risposta più o meno esauriente tra le testimonianze raccolte in ALT-Web. Ne esemplifichiamo alcuni. Di fronte al novilunio non è detto che il nonno e un nipote, che magari ha intrapreso gli studi, si esprimano nello stesso modo: il nonno, specialmente se contadino, manifesterà una notevole proprietà di linguaggio indicando la luna come “morta”, “nera”, “cattiva”, “orba” o “nova”, mentre il nipote si limiterà probabilmente a registrare semplicemente il fatto che “è buio” o che “non c’è luna”. Gli stessi nonno e nipote però di fronte a un oggetto dell’infanzia come una fionda si esprimeranno con ogni probabilità nello stesso modo, chiamandola “strombola/sfrombola”, “balestra”, “archetto” oppure “sfionda”. Gli interrogativi a cui ALT-Web può fornire risposta non sono tuttavia circoscritti alla sfera dell’uso linguistico: ad esempio, la testimonianza di ALT-Web può essere utile sul versante etnografico nella ricostruzione del profilo professionale di un mestiere ormai scomparso come quello del ‘calderaio’, oppure sul versante letterario per motivare le scelte stilistiche di autori del panorama letterario nazionale.

Chi ha creato ALT-Web?
Il progetto ALT-Web è stato ideato e coordinato da Simonetta Montemagni ed Eugenio Picchi dell’Istituto di Linguistica Computazionale del CNR di Pisa, affiancati da Sebastiana Cucurullo, Eva Sassolini e Michele Mammini che hanno sviluppato il software e da Matilde Paoli che ha curato la normalizzazione dei materiali dialettali e la definizione dei percorsi tematici esemplificativi. L’impresa si è avvalsa del contributo di un Comitato di consulenza scientifica composto da Luciano Agostiniani, Patrizia Bellucci, Luciano Giannelli, Annalisa Nesi e Teresa Poggi Salani.

Chi ha finanziato ALT-Web?
ALT-Web è stato realizzato con il sostegno finanziario della Regione Toscana, Direzione Generale Politiche Formative, Beni e Attività Culturali, Area di Coordinamento Cultura e Sport, Settore Musei, Biblioteche, Istituzioni Culturali nell’ambito del Progetto “Strumenti per l’integrazione e la valorizzazione dei sistemi museali e per la ricerca sul patrimonio culturale”.


A caccia di informazioni biomediche: il BioLessico, una risorsa lessicale per l’acquisizione automatica di conoscenza (2006)  

La produzione di letteratura scientifica in campo biomedico ha fatto registrare in questi ultimi anni un andamento di tipo esponenziale. Naturale conseguenza di una simile proliferazione, è l’esigenza da parte della comunità biomedica dell’accesso intelligente a questa immensa miniera di dati. Una tale richiesta ha un forte impatto sul settore delle tecnologie linguistiche e ne rappresenta una delle ultime sfide. La messa a punto di tecniche avanzate e strumenti affidabili che permettano di accedere enormi moli di dati e setacciarli, così da scoprire correlazioni tra dati apparentemente non correlati, catturare associazioni e trarre conclusioni costituisce un’area di ricerca di recente sviluppo nell’acquisizione di conoscenza. Il processo di estrazione di informazioni significative da grandi miniere di dati è comunemente riconosciuta come “data mining”. La sfida si estende agli attori del settore delle risorse linguistiche cui vengono richieste risorse lessicali e concettuali sofisticate, in grado di supportare e raffinare le tecniche di data mining. L’Istituto di Linguistica Computazionale, che da anni ha sviluppato elevate competenze nella definizione di metodi e modelli per risorse linguistiche adeguate al trattamento automatico della lingua, dirige all’interno del progetto europeo BootStrep lo sviluppo del modello e la costruzione di una risorsa lessicale onnicomprensiva, il BioLessico, che venga incontro ai bisogni crescenti di data mining. Il lessico nasce per l’inglese che è la lingua della produzione scientifica biomedica, ma è sottinteso che il suo modello può essere trasferito agevolmente ad altre lingue nonché ad altri domini.
Il progetto BootStrep ha uno spiccato carattere interdisciplinare perché coinvolge esperti del settore, di ontologie e linguisti computazionali. Per questa ragione, il BioLessico, nato all’interno di questo gruppo eterogeneo, rappresenta lo stato dell’arte più avanzato ed è candidato a divenire lo standard in questo dominio. Il BioLessico si presenta con interessanti caratteristiche di novità: è prima di tutto un lessico che integra i termini del domino biomedico. Questo costituisce la marcia in più del BioLessico che fonde caratteristiche di terminologia e di lessico computazionale Le terminologie attualmente disponibili mancano infatti delle informazioni necessarie per l’estrazione di conoscenza, mentre i lessici computazionali, che forniscono il dettaglio di informazione richiesto, non presentano d’altronde la dovuta ricchezza terminologica né contengono il legame alle ontologie del settore, depositi di conoscenza formale e concettuale necessari ai sistemi di apprendimento della conoscenza.
L’architettura del BioLessico e le categorie usate per la descrizione delle informazioni linguistiche sono sviluppate in totale conformità agli standard internazionali ISO per la rappresentazione di risorse lessicali, il Lexical Markup Framework. Grazie alla aderenza agli standard, il lessico è perciò in grado di rispondere adeguatamente ai requisiti di accesso e interoperabilità del contenuto. E’ in grado di far fronte alle necessità di normalizzazione della nomenclatura, permettendo di gestire in maniera agevole il problema delle varianti ortografiche dei termini, che costituisce la principale “crux” del settore, e proponendo un trattamento specifico per le varianti sinonimiche. E’ un lessico integrato ed integrabile perché, implementato come un database dinamico, equipaggiato con procedure per il caricamento dei dati attraverso un formato di scambio dedicato, può essere popolato automaticamente con procedure di “pull-and-push” dei termini raccolti dalle fonti biomediche disponibili e ulteriormente arricchito con informazione morfologica, sintattica e semantica. Il BioLessico è stato concepito così da consentire l’incapsulamento di informazioni relative al comportamento sintattico dei termini catturate dai testi, come pure la formalizzazione di relazioni paradigmatiche e sintagmatiche tra i sensi delle parole, quali per esempio, l’interleukin è una proteina, il citoplasma è parte della cellula, la Cox2 è tipica del ratto. Le entrate lessicali possono essere messe in relazione con la BioOntologia, che fornisce conoscenza formale e concettuale relativa al dominio. Ciò permette di collegare i termini ai concetti e agli eventi biomedici cui essi partecipano: per esempio, nei processi di attivazione, inibizione, etc. la proteina funge da agente e il gene da paziente. Insieme queste due risorse costituiscono una delle più grandi sfide e rappresentano lo “scheletro terminologico” della base di conoscenza per procedure di data mining nel dominio biomedico.


 
Torna indietro Richiedi modifiche Invia per email Stampa
Home Il CNR  |  I servizi News |   Eventi | Istituti |  Focus