Home |  English version |  Mappa |  Commenti |  Sondaggio |  Staff |  Contattaci Cerca nel sito  
Stato Avanzamento Attività commessa
Risorse e Tecnologie Linguistiche: standardizzazione, sviluppo, infrastrutture, strategie


  anni:  2005   2006   2007   2008   2009   2010   2011   2012   2013   2014 

Stato di Avanzamento attività anno 2014

Previsione attività per l'anno 2014
Risultati conseguiti:
Tra i risultati più significativi della commessa citiamo: estensione di lessici computazionali a vari domini, sindacale, fiscale, geografico e arricchimento di lessici con informazioni relativi alla polarità; realizzazione di training set per il dominio generico e specialistico e di una treebank (TimeBank) annotata a livello di espressioni e relazioni temporali; realizzazione di una ontologia multimodale dell'Azione (ImagACT/ModelACT); potenziamento di WordNet mediante il collegamento a terminologie esistenti; esperimenti di mapping tra Italwordnet e Princeton Wordnet e l'ontologia dei tipi azionali (IMAGACT); conversione di alcune delle risorse sviluppate nel formato RDF e loro pubblicazione nella rete dei Linked Data linguistici (LLOD). L'indagine sulle risorse linguistiche lessicali coinvolge aspetti più teorici di ricerca sulla possibilità di annotare nuovi livelli di informazione: sono stati condotti esperimenti innovativi sull'annotazione delle "affordances". La commessa ha condotto esperimenti con algoritmi di machine learning supervisionati per la classificazione automatica dei tipi azionali dei verbi in contesto e per il riconoscimento della polarità in testi (Opinion Detection). Sono stati sviluppati convertitori di formato per l'interoperabilità dei formati di rappresentazione, conversione da/verso formati standard ISO e convertitori di tagset e sistemi di annotazione, per l'integrazione e unificazione di diverse risorse. Come nuova direzione di ricerca è stata realizzata una piattaforma per la costruzione di risorse lessicali per le lingue classiche a partire da approcci diversi: unificazione di dizionari bilingui e allineamento di traduzioni. Sono state sviluppate procedure open-source per lo sviluppo di workflow di annotazione multilivello, dalla tokenizzazione all'analisi semantica con indicazioni funzionali, temporali, geografiche e di opinione/sentimento, come base per l' estrazione di conoscenza da testi e l'accesso mirato ai contenuti. Al fine di rendere tali risorse e strumenti maggiormente interoperabili, la commessa ha promosso standard e buone pratiche per i lessici e l'annotazione testuale, e raccomandazioni per il decollo del web multilingue accessibile e fruibile in tutte le lingue. Nell'ambito di Meta-Net, la commessa ha continuato l'attività di sviluppo di uno dei core nodes della federazione MetaShare per la condivisione di risorse linguistiche (ora ospitato presso ILC), la definzione del set di metadati per la loro descrizione e ha messo a disposizione un primo nucleo di risorse sulla piattaforma stessa. Sono state definite, secondo lo schema Metashare, le licenze d'uso per la condivisione e l'accesso a risorse audio-visive. In linea con gli sforzi a favore della comunità, è stata consolidata l'iniziativa di una Mappa delle Risorse Linguistiche ovvero un insieme di metadati relativi alle risorse collezionate, navigabili attraverso una interfaccia web dedicata. Nel settore della Letteratura Grigia, è stata condotta un'indagine sulla letteratura grigia italiana non accademica, e sulla tipologia documentaria nel settore oceanografico allo scopo di costruire un motore semantico in grado di gestire e recuperare in maniera intelligente documentazione oceanografica complessa. In attesa della partecipazione formale dell'Italia al CLARIN ERIC, è stato sviluppato un prototipo di piattaforma integrata di strumenti e risorse che costituisca un ambiente sperimentale per dimostrare la validità e le potenzialità delle architetture di risorse e strumenti linguistici, mobilitando un primo nucleo di istituti e gruppi operanti su tematiche affini al fine di raggiungere una massa critica di iniziative, risorse e/o strumenti con cui iniziare a popolare il portale Italiano. Sono stati organizzati eventi scientifici di rilievo: la Conferenza LREC 2014, l' Hackhaton Opener e il Workshop CCURL (Reykjavik, Mag 2014); CLIC-it (Area risorse linguistiche) (Pisa, Dic 2014). Si è partecipato con presentazioni a conferenze del settore, tra cui LREC 2014 ed eventi co-locati (Reykjavik, Mag 2014). Comunicazioni ad invito sono state presentate presso l'UNESCO (Parigi, nov 2014; Yakutsk lug 2014). Per l'attività editoriale, sono stati pubblicati quattro numeri del volume 48 della rivista "Language Resources and Evaluation". Nell'anno in corso, la commessa ha fornito expertise nell'ambito di collaborazioni con UNESCO, Consiglio d'Europa, ELEN Network, e NPLD per la promozione della diversità linguistica digitale e la valorizzazione del patrimonio linguistico. La Commessa ha preso parte ad iniziative di divulgazione offrendo una prospettiva rivolta al grande pubblico delle proprie attività di ricerca. Seminario rivolto agli alunni dell'Istituto Tecnico Economico "F. Carrara" di Lucca (Mar 2014); Internet Festival (Pisa, Ott 2014); Bright la notte dei ricercatori (Pisa Sett 2014), eventi in cui attività e risultati sono stati rivisitate in chiave didattica.
Punti critici:
Il punto critico continua ad essere l'organico. Le iniziative e i progetti (europei, internazionali, con industrie) comportano un carico notevole sempre maggiore di responsabilità e di attività sia scientifiche sia gestionali. Ciò richiede la disponibilità di ricercatori con competenze specifiche, la possibilità di formare su questi temi alcuni giovani, oltre ad aggiornare le competenze di ricercatori già coinvolti. Si stanno da tempo formando, con finanziamenti esterni, giovani con competenze specifiche ed è necessario inquadrarne alcuni come personale strutturato, anche per garantire continuità alle attività di ricerca e sviluppo. Attualmente 3 assegnisti di ricerca ed un borsita-dottorando affiancano gli strutturati nella conduzione delle attività afferenti alla commessa. Si considerano essenziali almeno 1 ricercatore e 1 tecnologo con profilo organizzativo-gestionale per segreteria scientifica ed assistenza al coordinamento di progetti internazionali e nazionali. Tali figure, che svolgono attività imprescindibili per il funzionamento del modulo e dei progetti, sono da anni pagate su fondi esterni di ricerca di questo modulo. Per quanto concerne le attività scientifiche, la sfida maggiore è rappresentata dalla necessità di realizzare funzionalità del tutto nuove di accesso e elaborazione delle risorse linguistiche. Lo sviluppo del Semantic Web in chiave multilingue richiede il coinvolgimento di altri gruppi, anche industriali, al fine di identificare e studiare le connessioni fra conoscenze distribuite in rete e le ontologie generali e di dominio che ne formeranno la base.
 
Torna indietro Richiedi modifiche Invia per email Stampa
Home Il CNR  |  I servizi News |   Eventi | Istituti |  Focus