Focus

Tecnologie linguistiche e tutela dei minori

Internet ripropone di continuo il delicato problema di come conciliare due diritti altrettanto fondamentali per cittadino: la tutela dei minori da contenuti offensivi e violenti e la libertà di espressione. Il fatto che questo si trasformi spesso in autentico dilemma è dimostrato dalla recente sentenza della Corte costituzionale americana lo scorso 29 giugno 2004, in cui la Corte è stata costretta a schierarsi dalla parte della libertà di espressione con il risultato di difendere ciò che non avrebbe voluto difendere, gli spacciatori di sesso via internet. La decisione è stata motivata dai limiti di una tecnologia non ancora capace di filtrare in maniera "chirurgica" il materiale in rete. La realizzazione di filtri Internet in grado di selezionare senza censurare resta dunque tuttora un traguardo ambizioso con un forte impatto sociale ed etico.

Il sistema di filtraggio POESIA (Public Open-source Environment for a Safer Internet Access), risultato dell'omonimo progetto europeo (IAP 2117/27572) che ha visto coinvolti 10 partecipanti accademici e industriali dall'Italia, la Spagna e la Francia al Regno Unito, può essere visto come un passo importante nella direzione di un filtraggio intelligente e selettivo dei contenuti Internet a tutela dei minori. POESIA affianca a tecniche standard di filtraggio (basate su liste di URLs o su classificazioni predefinite come PICS) tecnologie di avanguardia nei campi dell'elaborazione del linguaggio naturale e del trattamento delle immagini che gli permettono di operare le proprie scelte sulla base del contenuto testuale e iconografico.

L'Istituto di Linguistica Computazionale (ILC) del CNR di Pisa ha svolto il duplice ruolo di coordinatore del progetto e di sviluppatore del componente di filtraggio per pagine web in italiano. Partendo da una piattaforma ormai consolidata ed ampiamente sperimentata di risorse, metodi, e strumenti per il trattamento automatico dell'italiano, l'ILC ha messo a punto il componente per l'analisi e la classificazione del contenuto testuale di pagine web in italiano.

Questo componente combina tecnologie linguistiche consolidate di analisi dell'italiano con strumenti per l'acquisizione dinamica di conoscenza linguistica lessico-grammaticale da corpora testuali, basati sull'impiego di algoritmi di apprendimento automatico (o machine learning). Questa integrazione rappresenta un aspetto cruciale quando si va ad operare su depositi testuali in continua evoluzione come i siti Web che richiedono tecniche che siano in grado di adattarsi con rapidità ed efficienza a diversi domini applicativo-terminologici. Nel corso del progetto, il filtraggio del contenuto testuale è stato sperimentato su due domini specifici - la pornografia e il linguaggio volgare - con risultati più che incoraggianti. Il sistema, ripetutamente valutato dagli sviluppatori e dagli utenti finali su un vasto corpus di test, mostra una efficacia di filtraggio pari al 97% mentre le pagine erroneamente bloccate si aggirano intorno al 3%.

La natura open-source di POESIA fa sì che i risultati del progetto siano a disposizione della comunità che, oltre ad usarlo, può contribuire in modo significativo alla sua estensione ad altri domini, canali o ad altre lingue così come a tenerlo al passo con lo stato dell'arte. La versione finale del sistema può essere scaricata dall'indirizzo http://sourceforge.net/projects/poesia/.