La Treebank Sintattico Semantica dell'Italiano del progetto SI-TAL
Istituto
Istituto di linguistica computazionale "Antonio Zampolli" (ILC)
Referente
Simonetta Montemagni
E-mail: simonetta.montemagni@ilc.cnr.it
Descrizione
La Treebank sintattico-semantica dell'italiano di SI-TAL (progetto finanziato dal MURST nell'ambito della legge 46/82 art.10 realizzato sotto la direzione scientifica del Prof. Zampolli e con la collaborazione di alcuni tra i principali protagonisti della ricerca nazionale nel settore del trattamento automatico del linguaggio) è costituita da un corpus di ~300.000 parole annotato ai livelli ortografico, morfo-sintattico, sintattico (a costituenti e funzionale) e semantico-lessicale. In particolare, l'annotazione sintattica a costituenti riguarda 89.941 parole, quella sintattico-funzionale 305.547, mentre l'annotazione semantico-lessicale ha una copertura di 81.236 parole. Il corpus della Treebank di SI-TAL è suddiviso in due partizioni: a) un corpus "bilanciato", costituito da una selezione di diversi tipi di testi italiani; b) un corpus specializzato, costituito da testi appartenenti al dominio economico-finanziario. Il corpus annotato ai diversi livelli è stato strutturato in un database relazionale per permettere l'accesso ed interrogazioni inter- e intra-livello.
Modalità di accesso
in sede locale
Tipologia di dati
Materiali testuali con annotazione linguistica multi-livello
Tipo database
MYSQL