Focus

Rulex®: un software per l'estrazione di conoscenza dai dati

Quante volte nel lavoro quotidiano di ricercatori ci siamo trovati davanti a insiemi di dati nei quali esiste una qualche informazione rilevante, ma la semplice esplorazione visiva non è in grado di evidenziarla?!? E in quanti casi avremmo desiderato un sistema integrato capace di effettuare analisi statistiche avanzate o impiegare complessi algoritmi di data mining senza doverci districare tra la scelta di opzioni incomprensibili e formati sconosciuti?!?

La quotidiana lotta con la difficoltà di estrarre conoscenza dai dati sperimentali producendo modelli efficaci che consentano di prevedere l'evoluzione di un sistema fisico di interesse ha segnato l'attività del gruppo di Machine Learning, presente da più di 25 anni all'interno dell'Istituto di Elettronica, di Ingegneria dell'Informazione e delle Telecomunicazioni del CNR. Dopo aver accumulato esperienza con i metodi più avanzati derivati in ambito statistico e nel settore della Computer Science (reti neurali, alberi decisionali, support vector machine, ...) l'attività di ricerca del gruppo si è focalizzata su un nuovo paradigma incentrato sulla ricostruzione di funzioni booleane da esempi.

Attraverso questo approccio innovativo è stato possibile mettere a punto nuovi modelli, denominati Switching Neural Networks (SNN), interamente descritti da semplici regole intelligibili del tipo if-then. L'applicazione di tali modelli ai settori scientifici più disparati (in particolare nel trattamento di dati biologici) ha condotto a risultati importanti comprovati da pubblicazioni su prestigiose riviste internazionali.
Al fine di consentire una più immediata fruibilità di questi modelli e degli algoritmi innovativi correlati è stato fondato nel 2007 uno spin-off del CNR, denominato Impara Srl, con lo scopo di intraprendere un'attività di prototipazione che renda più efficienti gli algoritmi di addestramento delle SNN e proceda alla costruzione di un ambiente integrato per la loro applicazione all'analisi di dati provenienti da una qualunque sorgente.

È nata così la suite Rulex (acronimo di RULe EXtraction) per la gestione, la visualizzazione e l'analisi di dati: una piattaforma visuale integrata consente di effettuare qualunque operazione in modo semplice ed immediato, liberando l'utente dalla necessità di conoscere i dettagli implementativi legati alla memorizzazione e all'esecuzione. La costruzione di un processo di analisi avviene semplicemente connettendo blocchi elementari al flusso dei dati, secondo un procedimento di programmazione visuale.
Il nucleo computazionale di Rulex, scritto interamente in linguaggio C ad elevato grado di ottimizzazione, permette di raggiungere un'efficienza molto elevata: dataset contenenti un miliardo di dati sono stati analizzati in tempi contenuti su un normale personal computer. In particolare, è stata implementata da Impara una versione ottimizzata del modello SNN, denominato Logic Learning Machine (LMM), che si è rilevata uno strumento prezioso nella soluzione di molti problemi applicativi.

Attualmente Rulex viene utilizzato, nella versione standalone o nella versione OEM, da ricercatori universitari e degli Enti di Ricerca, nonché da importanti aziende private, quali Danone, Granarolo, De Cecco (per la previsione dei volumi di vendita negli eventi promozionali), Lennox (per la previsione degli effetti della stagionalità sulla vendita dei prodotti), Ansaldo (per la diagnosi preventiva di impianti), Novacoop (per l'analisi delle differenze inventariali), Poste Mobile (per la segmentazione della clientela), RS Components (per la stima di successo dei nuovi prodotti).