Focus

Calcolo distribuito di PageRank

Sul proprio sito web, Google descrive PageRank nel seguente modo: "PageRank reflects our view of the importance of web pages by considering more than 500 million variables and 2 billion terms. Pages that are considered important receive a higher PageRank and are more likely to appear at the top of the search results".

L'algoritmo di PageRank è stato introdotto dai co-fondatori di Google alla fine del 1990, ed è stato implementato nel loro motore di ricerca sin dal momento del suo lancio. Oggigiorno continua ad essere parte integrante del motore di ricerca Google, e si dice rappresenti uno dei 200 fattori utilizzati per ottimizzare i risultati della ricerca. Il PageRank di una pagina web riflette la sua importanza, che è determinata dalla struttura ipertestuale del web. In particolare, esso è determinato dal numero di link che puntano alla pagina, così come dall'importanza delle pagine dalle quali tali collegamenti ipertestuali hanno origine. Simili idee per il ranking di oggetti erano state precedentemente utilizzate in altri contesti, come ad esempio la sociometria e la bibliometria.

Il problema del calcolo di PageRank ha recentemente attirato l'attenzione della comunità dei sistemi e dei controlli. In questo contesto, ricercatori IEIIT hanno sviluppato un nuovo approccio, distribuito e randomizzato, basato su un particolare protocollo di comunicazione detto "gossip." Questo approccio distribuito è molto significativo considerando le difficoltà computazionali causate delle dimensioni del web (attualmente composto da più di 8 miliardi di pagine) e le risorse computazionali disponibili. In particolare, ad IEIIT sono state studiate le proprietà di convergenza del protocollo di comunicazione e le variazioni dei valori di PageRank in presenza di link fragili e incerti. Inoltre, sono stati proposti altri algoritmi distribuiti, basati su tecniche di aggregazione, che possono essere utilizzate in presenza di comunicazioni intermittenti. Tutti questi algoritmi permettono di analizzare strutture di rete sparse e di grandi dimensioni e di calcolare il valore di PageRank.

I risultati che sono stati ottenuti sono di grande interesse anche per altri problemi di "big data," e algoritmi derivati da PageRank possono essere usati con successo anche per classificare altri oggetti in ordine di importanza, come ad esempio articoli scientifici collegati da citazioni e autori collegati da lavori scritti in collaborazione, per determinare l'importanza di proteine in biologia e per analizzare le prestazioni di atleti professionisti. Il problema PageRank e lo studio di algoritmi computazionalmente efficienti possono quindi attirare l'attenzione di molti ricercatori che lavorano in settori scientifici diversi, che comprendono sistemi e controlli, informatica, comunicazioni elettriche, fisica, analisi numerica, algebra lineare e teoria dei grafi.

Ulteriori dettagli sui risultati ottenuti ed elenco di pubblicazioni scientifiche sull'argomento sono disponibili all'indirizzo web http://goo.gl/F8Gm0m