@prefix prodottidellaricerca: . @prefix istituto: . @prefix prodotto: . istituto:CDS044 prodottidellaricerca:prodotto prodotto:ID220733 . @prefix pubblicazioni: . @prefix unitaDiPersonaleInterno: . unitaDiPersonaleInterno:MATRICOLA8945 pubblicazioni:autoreCNRDi prodotto:ID220733 . unitaDiPersonaleInterno:MATRICOLA1738 pubblicazioni:autoreCNRDi prodotto:ID220733 . istituto:CDS048 prodottidellaricerca:prodotto prodotto:ID220733 . @prefix unitaDiPersonaleEsterno: . unitaDiPersonaleEsterno:ID17591 pubblicazioni:autoreCNRDi prodotto:ID220733 . unitaDiPersonaleEsterno:ID16916 pubblicazioni:autoreCNRDi prodotto:ID220733 . unitaDiPersonaleEsterno:ID16918 pubblicazioni:autoreCNRDi prodotto:ID220733 . @prefix modulo: . modulo:ID8468 prodottidellaricerca:prodotto prodotto:ID220733 . @prefix rdf: . prodotto:ID220733 rdf:type prodotto:TIPO1303 . @prefix retescientifica: . prodotto:ID220733 rdf:type retescientifica:ProdottoDellaRicerca . @prefix rdfs: . prodotto:ID220733 rdfs:label "Web Language Identification Testing Tool (Comunicazione a convegno)"@en . @prefix xsd: . prodotto:ID220733 pubblicazioni:anno "2012-01-01T00:00:00+01:00"^^xsd:gYear . @prefix skos: . prodotto:ID220733 skos:altLabel "
Abrate, Matteo [1]; Bacciu, Clara [1]; Frontini, Francesca [2]; Lapolla, Mariantonietta Noemi [1]; Marchetti, Andrea [1]; Monachini, Monica [2] (2012)
Web Language Identification Testing Tool
in The Multilingual Web - the Way Ahead, Luxembourg, 15 - 16 March 2012
"^^rdf:HTML ; pubblicazioni:autori "Abrate, Matteo [1]; Bacciu, Clara [1]; Frontini, Francesca [2]; Lapolla, Mariantonietta Noemi [1]; Marchetti, Andrea [1]; Monachini, Monica [2]"^^xsd:string ; pubblicazioni:altreInformazioni "id_puma: /cnr.ilc/2012-A3-002"^^xsd:string ; pubblicazioni:affiliazioni "[1] CNR-IIT, Pisa; [2] CNR-ILC, Pisa"^^xsd:string ; pubblicazioni:titolo "Web Language Identification Testing Tool"^^xsd:string ; prodottidellaricerca:abstract "Nowadays a variety of tools for automatic language identification are available. Regardless of the approach used, at least two features can be identified as crucial to evaluate the performances of such tools: the precision of the presented results and the range of languages that can be detected. In this work we shall focus on a subtask of written language identification that is important to preserve and enhance multilinguality in the Web, i.e. detecting the language of a Web page given its URL. Most specifically, the final aim is to verify to which extent under-represented languages are recognized by available tools. The main specificity of Web Language Identification (WLI) lies in the fact that often an HTML page can provide interesting extralinguistic clues (URL domain name, metadata, encoding, etc) that can enhance accuracy. We shall first provide some data and statistics on the presence of languages on the web, secondly discuss existing practices and tools for language identification according to different metrics - for instance the approaches used and the number of supported languages - and finally make some proposals on how to improve current Web Language Identifiers. We shall also present a preliminary WLI service that builds on the Google Chromium Compact Language Detector; the WLI tool allows us to test the Google n-gram based algorithm against an adhoc gold standard of pages in various languages. The gold standard, based on a selection of Wikipedia projects, contains samples in languages for which no automatic recognition has been attempted; it can thus be used by specialists to develop and evaluate WLI systems."@en ; prodottidellaricerca:prodottoDi modulo:ID8468 , istituto:CDS044 , istituto:CDS048 ; pubblicazioni:autoreCNR unitaDiPersonaleEsterno:ID16918 , unitaDiPersonaleEsterno:ID17591 , unitaDiPersonaleInterno:MATRICOLA8945 , unitaDiPersonaleEsterno:ID16916 , unitaDiPersonaleInterno:MATRICOLA1738 . @prefix parolechiave: . prodotto:ID220733 parolechiave:insiemeDiParoleChiave . parolechiave:insiemeDiParoleChiaveDi prodotto:ID220733 .