Consiglio Nazionale delle Ricerche

Tipo di prodottoContributo in volume
TitoloBuilding the Italian Syntactic-Semantic Treebank
Anno di pubblicazione2003
Formato-
Tipologia di contributo in volume-
Autore/iMontemagni S. 1, Barsotti F. 2, Battista M. 3, Calzolari N. 4 , Corazzari O. 5, Lenci A. 6, Zampolli A. 7, Raffaelli R. 8, Pazienza M.T. 9, Mana N. 10, Delmonte R. 11 [et alii]
Affiliazioni autori1 ILC-CNR, 2 CPR-Pisa, 3 ILC-CNR, 4 ILC-CNR, 5 ILC-CNR, 6 Uni Pisa, 7 Uni Pisa, 8 Synthema-Pisa, 9 Uni Tor Vergata, 10 IRST-Trento, 11 Uni Venezia
Autori CNR e affiliazioni
  • SIMONETTA MONTEMAGNI
  • NICOLETTA ZAMORANI
Lingua/e-
Sintesi-
Lingua sintesi-
Altra sintesi-
Lingua altra sintesi-
Pagine da-
Pagine a-
Pagine totali-
Serie/Collana-
Titolo del volume-
Numero volume della serie/collana-
Curatore/i del volume-
ISBN-
Edizione/Versione-
DOI-
Editore-
Verificato da referee-
Stato della pubblicazione-
Indicizzazione (in banche dati controllate)-
Parole chiaveCorpora testuali, Annot. sintattica, Annot. semantica, Treebank
Link (URL, URI)-
Titolo parallelo-
Note/Altre informazioniLa TreSSI è una risposta alla necessità di produrre e di mettere a disposizione della comunità culturale e industriale italiana corpora annotati a diversi livelli di descrizione linguistica che possano svolgere la stessa funzione rivestita per la lingua inglese dalla Penn Treebank per la sintassi oppure da SEMCOR per la semantica. I risultati illustrati nell’articolo sono quindi caratterizzati da un grande livello di innovazione nell’ambito del panorama della ricerca nazionale e contribuiscono a ridurre il divario tecnologico della lingua italiana nei confronti del contesto internazionale in questo settore. Inoltre la TreSSI rimane ad oggi ineguagliata sia per l’estensione del corpus che per i livelli e i tipi di annotazione. La TreSSI è stata realizzata in una forte prospettiva di internazionalizzazione, testimoniata dal fatto che gli schemi di annotazione utilizzati rispondono a standard riconosciuti da tutta la comunità internazionale.
Strutture CNR
  • ILC — Istituto di linguistica computazionale "Antonio Zampolli"
Moduli/Attività/Sottoprogetti CNR-
Progetti Europei-
Allegati

Dati storici
I dati storici non sono modificabili, sono stati ereditati da altri sistemi (es. Gestione Istituti, PUMA, ...) e hanno solo valore storico.
Area disciplinareLanguage & Linguistics
Area valutazione CIVRScienze dell'Antichità, filologico-letterarie e storico-artistiche
CittàDordrecht
Collana In A. Abeillé (ed.), Treebanks: Building and Using Parsed Corpora
EditoreKluwer Academic Publishers
NoteSeries Text, Speech and Language Technology, v. 20. 189-210.
Descrizione sintetica del prodottoL’articolo illustra la prima Treebank-sintattico-semantica dell'italiano (TreSSI), realizzata nel progetto nazionale TAL e coordinata dall’ILC. TreSSI è costituita da un corpus annotato dell’italiano scritto di più di 300.000 parole suddiviso in una parte “bilanciata” (costituita da una varia tipologia di testi italiani), e in una parte specialistica (costituita da testi del dominio economico-finanziario), e ha una struttura modulare che copre i livelli di descrizione linguistica ortografico, morfo-sintattico, sintattico e semantico. L’annotazione sintattica è distribuita su due livelli indipendenti ma complementari: il livello dell’annotazione a costituenti e quello dell’annotazione funzionale. L’annotazione semantico-lessicale è realizzata nei termini di etichettatura con i sensi del lessico computazionale ItalWordNet, arricchita con altri tipi di informazione semantica. Tale architettura introduce interessanti elementi di novità rispetto ad altre Treebanks sviluppate o in corso di sviluppo per lingue diverse, che mirano ad ampliare l’orizzonte degli usi di cui il corpus annotato si rende suscettibile. Lo sviluppo di TreSSI è stato gestito attraverso GesTALt, un software dedicato per la creazione, validazione e gestione del corpus annotato. La risorsa è stata sottoposta all’interno del progetto ad una valutazione da parte di un partner industriale nell'ambito di un sistema di traduzione automatica.