Focus

Estrazione e classificazione di comunità implicite nel web

Il World Wide Web (WWW) sta diventando rapidamente uno dei mezzi più importanti nella nostra società per la condivisione di dati, informazioni e servizi. Vi è dunque un interesse crescente per strumenti che consentano di monitorare comportamenti collettivi e fenomeni emergenti nel web. L'attività di ricerca affronta il problema di trovare e classificare gruppi di pagine pubblicate sul Web che abbiano un'alta densità di connessioni ipertestuali reciproche. Modellando il Web come un grafo, queste regioni corrispondono a sottografi densi del grafo del web. Sono stati messi a punto nuovi metodi ad alta efficienza ed efficacia, che consentono di trattare un intero dominio nazionale (per esempio il dominio italiano .it che nel 2005 consisteva di 120 M di pagine e di circa 1 miliardo di connessioni ipertestuali). I dati così estratti sono poi classificati in categorie (per esempio: Enti Locali, Associazioni, Portali, Shopping, Notizie etc..) e messi a disposizione per la visualizzazione con lo strumento "Community Watch" disponibile on-line al sito http://comwatch.iit.cnr.it/.


Riferimenti:

Yon Dourisboure, Filippo Geraci, Marco Pellegrini: Extraction and classification of dense communities in the web. In atti del "16th International World Wide Web Conference" (WWW2007), pp. 461-470