http://www.cnr.it/ontology/cnr/individuo/descrizionemodulo-descrizionemodulo/ID6112
Descrizione del modulo "Machine Learning for Biological Data (INT.P02.002.001)"
- Type
- Label
- Descrizione del modulo "Machine Learning for Biological Data (INT.P02.002.001)" (literal)
- Potenziale impiego per bisogni individuali e collettivi
- La realizzazione di sistemi intelligenti che coadiuvano il ricercatore in campo biomedico risponde a primari bisogni individuali e collettivi nell'ambito socio-sanitario. Basti pensare all'importanza per un medico di poter basare la propria diagnosi sull'informazione intelligibile acquisita dall'analisi di un insieme significativo di casi clinici. L'impiego accorto di un tale strumento potrebbe condurre ad una profilassi preventiva più accurata, nonché a ridurre il numero di diagnosi errate che affligge attualmente il nostro sistema sanitario.
D'altra parte, un ausilio automatico nella determinazione della funzione svolta dai vari geni dell'organismo umano può agevolare considerevolmente il ricercatore in tale ambito e accelerare conseguentemente l'avvio di terapie geniche per la cura di malattie tumorali o degenerative del sistema nervoso.
Infine, la messa a punto di \"system-on-chips\" per analisi biomediche può portare alla tempestiva individuazione di patologie in atto, riducendo così il rischio di decorsi sfavorevoli. (literal)
- Tematiche di ricerca
- Estrarre informazione da dati biologici attraverso metodi di machine learning e, più specificamente, tecniche per la generazione di regole al fine di agevolare l'attività di ricerca nel settore biomedico. I principali problemi esaminati riguardano la diagnosi e la prognosi di patologie a partire da dati clinici e da analisi di tipo omico relative ai pazienti interessati.
Realizzare appropriate soluzioni hardware e software per implementare dispositivi capaci di analizzare in maniera intelligente insiemi di dati biologici.
Predisporre opportune metodologie, teoriche e sperimentali, per la valutazione oggettiva dei metodi impiegati.
Adottare le più recenti metodologie genomiche, proteomiche e computazionali al fine di aumentare la conoscenza e facilitare cosi lo studio dei sistemi biologici complessi.
Nell'ambito dei Sistemi di Supporto alle Decisioni per l'ambiente e il territorio vengono sviluppate: tecniche di analisi a molti criteri e molti decisori, metodologie e tecniche di facilitazione per la partecipazione degli stakeholder nei processi decisionali, metodologie di valutazione ambientale, algoritmi per sistemi innovativi di mobilità sostenibile. (literal)
- Competenze
- Al fine di svolgere l'attività di ricerca prevista sono disponibili le seguenti competenze:
- esperienza nell'analisi, nello sviluppo e nell'applicazione di metodi di estrazione dell'informazione da dati sperimentali: tecniche di statistica inferenziale, metodi di machine learning (reti neurali, support vector machine, ecc.), algoritmi per la generazione di regole;
- conoscenza degli strumenti matematici della Teoria della Probabilità e della Statistica, in particolare per lo studio della convergenza di processi stocastici;
- esperienza nella programmazione efficiente e nello sviluppo di software ad alte prestazioni che riducano l'onere computazionale, sia in termini di tempo che di memoria;
- conoscenza delle tecniche di discretizzazione e di binarizzazione di dati continui, finalizzate alla riduzione del numero di bit necessario alla codifica delle variabili nel mantenimento delle informazioni contenute nei dati;
- esperienza nell'implementazione di metodi per la ricostruzione di funzioni booleane a partire da esempi;
- conoscenza adeguata delle problematiche biomediche oggetto dell'analisi con metodi di estrazione dell'informazione e con metodi di modellizzazione computazionale. (literal)
- Potenziale impiego per processi produttivi
- I metodi di estrazione dell'informazione sviluppati nell'ambito del presente modulo possono essere impiegati nella realizzazione di sistemi intelligenti per coadiuvare il lavoro dei ricercatori in campo biomedico in numerose attività, tra le quali:
- diagnosi e prognosi di patologie a partire da una raccolta di analisi cliniche e di dati relativi allo stato psicofisico del paziente,
- studio dei processi di splicing alternativo nella produzione di proteine all'interno delle cellule eucariote, in particolare nell'uomo,
- analisi funzionale dei geni attraverso gli strumenti di rilevazione dell'espressione genica, quali i DNA microarray.
- Studio di sistemi biologici complessi di rilevanza nel settore medicale (malattie tumorali, ingegneria dei tessuti).
Conseguentemente il lavoro di ricerca svolto nel presente modulo può trovare impiego nei processi produttivi associati alle attività suddette. Ad esempio, nella realizzazione di sistemi per la diagnosi assistita, nella messa a punto di protocolli di cura personalizzati, nella creazione di nuovi farmaci o di terapie geniche per le malattie tumorali o per le patologie degenerative del sistema nervoso. (literal)
- Tecnologie
- Le tecniche di machine learning e, più specificamente, i metodi per la generazione di regole costituiscono una metodologia consolidata per la costruzione di modelli di sistemi fisici (in particolare per applicazioni nel campo biomedico) laddove non si hanno informazioni a priori sul fenomeno in esame, ma si possiede soltanto un insieme di dati che ne descrive il comportamento in situazioni particolari.
Particolare importanza ai fini della modellazione di dati biologici rivestono le tecniche di feature selection, capaci di individuare il sottoinsieme di ingressi rilevanti per un determinato problema. Infatti, oltre a rendere più efficiente il processo di acquisizione dei dati, permettono di comprendere le effettive variabili in gioco nel sistema in esame.
In tutta l'attività di ricerca svolta nel modulo è essenziale l'apporto dei metodi ottimizzazione locale e globale, sia di tipo combinatorio che continuo. Essi costituiscono infatti un tassello fondamentale sia per la realizzazione dei metodi di machine learning che per la messa a punto di metodi di feature selection.
Infine, le tecniche di statistica classica sono strumento indispensabile per lo svolgimento di ogni attività. (literal)
- Obiettivi
- Il presente modulo si propone di mettere a punto metodi intelligenti per l'estrazione dell'informazione da dati biologici con le seguenti caratteristiche:
- descrivano l'informazione estratta sotto forma di un insieme di regole intelligibili, che possono essere direttamente impiegate per ottenere un modello del fenomeno sottostante oppure utilizzate per una sua migliore comprensione,
- siano in grado di determinare le variabili salienti ai fini della caratterizzazione dell'insieme di dati,
- abbiano un costo computazionale contenuto, tale da permettere l'analisi di insiemi di dati con dimensione ragguardevole attraverso un normale personal computer,
- ammettano un'implementazione dell'insieme di regole su un semplice dispositivo elettronico.
In particolare, verranno analizzati due metodi recentemente sviluppati presso la sede di Genova dell'Istituto di Elettronica e di Ingegneria dell'Informazione e delle Telecomunicazioni: Hamming Clustering (HC) e Shadow Clustering (SC). Entrambi gli algoritmi sono basati sulla sintesi di funzioni booleane e raggiungono valori di accuratezza paragonabili a quelli dei migliori metodi di machine learning. (literal)
- Stato dell'arte
- I metodi attualmente impiegati per estrarre informazione da insiemi di dati biologici adottano approcci propri della statistica e del machine learning per derivare modelli matematici dei fenomeni in esame. Normalmente tali modelli sono del tipo black box: il loro funzionamento è descritto da relazioni algebriche e/o differenziali che non consentono di comprendere il legame tra ingressi e uscite.
Nella maggior parte dei problemi di tipo biomedico tale comportamento è indesiderato o inaccettabile: sarebbe preferibile una tecnica capace di produrre un modello descrivibile attraverso un insieme di regole intelligibili per l'uomo. Infatti ciò permetterebbe ai ricercatori del settore una maggiore comprensione del fenomeno sottostante.
Sfortunatamente, i metodi per la generazione di regole attualmente disponibili presentano valori di accuratezza significativamente inferiori a quelli delle tecniche \"black box\" e producono nella maggior parte dei casi regole insoddisfacenti dal punto di vista applicativo. Una soluzione promettente è offerta dai metodi basati sulla sintesi di funzioni booleane, che raggiungono valori di accuratezza elevati, mantenendo l'intelligibilità dei modelli prodotti. (literal)
- Tecniche di indagine
- Le tecniche capaci di estrarre informazione da insiemi di dati biologici costituiscono uno strumento efficace per comprendere i fenomeni sottostanti. Per tale scopo accanto ai metodi propri della statistica inferenziale (analisi discriminante, ricostruzione di densità tramite funzioni kernel, nearest neighbor, ecc.) sono state impiegate con successo tecniche di machine learning, quali reti neurali, support vector machines, algoritmi di clustering, ecc.
In particolare, i metodi per la generazione di regole offrono la possibilità di esprimere in maniera intelligibile il modello matematico che descrive l'insieme di dati analizzato. Tale caratteristica li rende più appropriati all'indagine nel settore biomedico. I metodi di questo tipo maggiormente impiegati nella pratica sono le tecniche per la costruzione di alberi decisionali, ma la loro ridotta capacità di generalizzazione ne limita notevolmente l'interesse applicativo.
Il presente modulo adotta pertanto metodi per la generazione di regole basati sulla sintesi di funzioni booleane che presentano una maggiore accuratezza senza aumentare l'onere computazionale. (literal)
- Descrizione di
Incoming links:
- Descrizione