Consiglio Nazionale delle Ricerche

Tipo di prodottoArticolo in rivista
TitoloItalWordNet: building a large semantic database for the automatic treatment of Italian
Anno di pubblicazione2003
Formato-
Autore/iRoventini A. , Alonge A. , Bertagna F. , Calzolari N. , Cancila J. , Girardi C. , Magnini B. , Marinelli R. 8, Speranza M. 9, Zampolli A.
Affiliazioni autoriAlonge A: Università di Perugia; MagniniB.: IRST-Trento; Speranza M.: IRST-Trento; Cancila: IRST-Trento; Zampolli A. Direttore ILC Uni Pisa; Cancila J.: Girardi C.:
Autori CNR e affiliazioni
  • FRANCESCA BERTAGNA
  • RITA MARINELLI
  • ADRIANA ROVENTINI
  • NICOLETTA ZAMORANI
Lingua/e-
AbstractAbstract - This paper describes the main characteristics of the ItalWordNet semantic database, built in the context of the SI-TAL Italian National Project, within which a set of integrated resources and tools for the automatic treatment of the Italian language was realized. The database was created by extending the Italian wordnet developed within the EuroWordNet project, by adding: i) adjectives, adverbs and proper nouns (not dealt with in EuroWordNet); ii) a terminological subset related to the economic-financial domain. The relevant changes involved by these extensions both in the linguistic model and in the data structure are also illustrated. In particular, we discuss: i) the overall architecture of the database; ii) the semantic relations used to encode information on synsets; iii) the changes made to the EuroWordNet Top Ontology structure; iv) the specific characteristics of the terminological subset and the solutions adopted to link it to the generic wordnet. Keywords - synset, semantic database, wordnet, semantic
Lingua abstract-
Altro abstract-
Lingua altro abstract-
Pagine da745
Pagine a791
Pagine totali-
Rivista-
Numero volume della rivista18-19
Fascicolo della rivista-
DOI-
Verificato da refereeSì: Internazionale
Stato della pubblicazione-
Indicizzazione (in banche dati controllate)-
Parole chiaveDatabase lessicale, Rete semantica, Relazioni semantiche, Risorse linguistiche
Link (URL, URI)-
Titolo parallelo-
Data di accettazione-
Note/Altre informazioniLa risorsa IWN viene distribuita attraverso ELDA (ne sono state vendute diverse copie). IWN è compatibile con gli standard WordNet ed EWN ed è disponibile in formato XML. IWN è stata usata come risorsa lessicale di riferimento per la codifica semantica della ISST (Italian Syntactic Semantic Treebank) nel progetto TAL, per la seconda e terza edizione della competizione internazionale di sistemi di disambiguazione SENSEVAL e come base di conoscenza per un sistema di Question Answering per l’italiano sviluppato presso l'ILC. L'attività di ricerca legata allo sviluppo di IWN è accompagnata da una ricca produzione di pubblicazioni e presentata in numerosi congressi internazionali. Per la rilevanza del congresso nel panorama della disciplina e per la severità della selezione, ricordiamo l'articolo Alonge A., Bertagna F., Calzolari N., Roventini A., Zampolli A., Encoding information on adjectives in a lexical-semantic net for computational applications, in Proceedings NAACL 2001.
Strutture CNR
  • ILC — Istituto di linguistica computazionale "Antonio Zampolli"
Moduli/Attività/Sottoprogetti CNR
  • IC.P02.005.001 : Risorse e Tecnologie Linguistiche: modelli, metodi di sviluppo, applicazioni, disegno di strategie internazionali
Progetti Europei-
Allegati

Dati storici
I dati storici non sono modificabili, sono stati ereditati da altri sistemi (es. Gestione Istituti, PUMA, ...) e hanno solo valore storico.
Area disciplinareLanguage & Linguistics
Area valutazione CIVRScienze dell'Antichità, filologico-letterarie e storico-artistiche
RivistaLinguistica Computazionale
NoteIn A. Zampolli, N. Calzolari, L. Cignoni, (eds.), Computational Linguistics in Pisa - Linguistica Computazionale a Pisa, IEPI, Pisa-Roma.
Descrizione sintetica del prodottoIl database semantico-lessicale dell’italiano ItalWordNet (IWN) è una “rete semantica” a copertura ampia, collegata a diverse lingue europee, strutturata secondo il modello di WordNet (di Princeton) arricchito ed esteso ad altre lingue nel progetto EuroWordNet (EWN) e, successivamente, nel progetto nazionale TAL. Nella risorsa sono rappresentate tutte le principali parti del discorso. I sensi sono raggruppati in circa 50.000 “synsets” (gruppi di sensi sinonimi tra loro) collegati da relazioni semantiche di vario tipo, quali iperonimia/iponimia, meronimia, antonimia, ecc. Le relazioni di iperonimia/iponimia costituiscono una struttura gerarchica, che va dai sensi più generali (“base concepts”) ai sensi più specifici. Questi “base concepts” (selezionati sulla base della loro importanza nelle diverse risorse lessicali), costituiscono i punti di partenza delle gerarchie semantiche. I “base concepts” di più alto livello sono a loro volta collegati agli elementi di una ontologia formata da circa 80 concetti che strutturano il lessico in classi semantiche molto generali. Ogni synset di IWN è collegato per mezzo di apposite relazioni a WordNet. Ciò permette un collegamento tra italiano e inglese, e, attraverso l’inglese, anche ad altre lingue europee presenti in EWN. Questo tipo di informazione è essenziale per l’uso di IWN in applicazioni multilingui in cui sia necessario riconoscere i legami concettuali tra parole (Cross Language Information Retrieval).