La produzione di letteratura scientifica in campo biomedico ha fatto registrare in questi ultimi anni un andamento di tipo esponenziale. Naturale conseguenza di una simile proliferazione, è l'esigenza da parte della comunità biomedica dell'accesso intelligente a questa immensa miniera di dati. Una tale richiesta ha un forte impatto sul settore delle tecnologie linguistiche e ne rappresenta una delle ultime sfide. La messa a punto di tecniche avanzate e strumenti affidabili che permettano di accedere enormi moli di dati e setacciarli, così da scoprire correlazioni tra dati apparentemente non correlati, catturare associazioni e trarre conclusioni costituisce un'area di ricerca di recente sviluppo nell'acquisizione di conoscenza. Il processo di estrazione di informazioni significative da grandi miniere di dati è comunemente riconosciuta come "data mining". La sfida si estende agli attori del settore delle risorse linguistiche cui vengono richieste risorse lessicali e concettuali sofisticate, in grado di supportare e raffinare le tecniche di data mining. L'Istituto di Linguistica Computazionale, che da anni ha sviluppato elevate competenze nella definizione di metodi e modelli per risorse linguistiche adeguate al trattamento automatico della lingua, dirige all'interno del progetto europeo BootStrep lo sviluppo del modello e la costruzione di una risorsa lessicale onnicomprensiva, il BioLessico, che venga incontro ai bisogni crescenti di data mining. Il lessico nasce per l'inglese che è la lingua della produzione scientifica biomedica, ma è sottinteso che il suo modello può essere trasferito agevolmente ad altre lingue nonché ad altri domini.
Il progetto BootStrep ha uno spiccato carattere interdisciplinare perché coinvolge esperti del settore, di ontologie e linguisti computazionali. Per questa ragione, il BioLessico, nato all'interno di questo gruppo eterogeneo, rappresenta lo stato dell'arte più avanzato ed è candidato a divenire lo standard in questo dominio.
Il BioLessico si presenta con interessanti caratteristiche di novità: è prima di tutto un lessico che integra i termini del domino biomedico. Questo costituisce la marcia in più del BioLessico che fonde caratteristiche di terminologia e di lessico computazionale Le terminologie attualmente disponibili mancano infatti delle informazioni necessarie per l'estrazione di conoscenza, mentre i lessici computazionali, che forniscono il dettaglio di informazione richiesto, non presentano d'altronde la dovuta ricchezza terminologica né contengono il legame alle ontologie del settore, depositi di conoscenza formale e concettuale necessari ai sistemi di apprendimento della conoscenza.
L'architettura del BioLessico e le categorie usate per la descrizione delle informazioni linguistiche sono sviluppate in totale conformità agli standard internazionali ISO per la rappresentazione di risorse lessicali, il Lexical Markup Framework. Grazie alla aderenza agli standard, il lessico è perciò in grado di rispondere adeguatamente ai requisiti di accesso e interoperabilità del contenuto.
E' in grado di far fronte alle necessità di normalizzazione della nomenclatura, permettendo di gestire in maniera agevole il problema delle varianti ortografiche dei termini, che costituisce la principale "crux" del settore, e proponendo un trattamento specifico per le varianti sinonimiche.
E' un lessico integrato ed integrabile perché, implementato come un database dinamico, equipaggiato con procedure per il caricamento dei dati attraverso un formato di scambio dedicato, può essere popolato automaticamente con procedure di "pull-and-push" dei termini raccolti dalle fonti biomediche disponibili e ulteriormente arricchito con informazione morfologica, sintattica e semantica. Il BioLessico è stato concepito così da consentire l'incapsulamento di informazioni relative al comportamento sintattico dei termini catturate dai testi, come pure la formalizzazione di relazioni paradigmatiche e sintagmatiche tra i sensi delle parole, quali per esempio, l'interleukin è una proteina, il citoplasma è parte della cellula, la Cox2 è tipica del ratto.
Le entrate lessicali possono essere messe in relazione con la BioOntologia, che fornisce conoscenza formale e concettuale relativa al dominio. Ciò permette di collegare i termini ai concetti e agli eventi biomedici cui essi partecipano: per esempio, nei processi di attivazione, inibizione, etc. la proteina funge da agente e il gene da paziente. Insieme queste due risorse costituiscono una delle più grandi sfide e rappresentano lo "scheletro terminologico" della base di conoscenza per procedure di data mining nel dominio biomedico.
Focus