Database

La Treebank Sintattico Semantica dell'Italiano del progetto SI-TAL

Institute

Institute of computational linguistics "Antonio Zampolli" (ILC)

Referent

Simonetta Montemagni
Email: simonetta.montemagni@ilc.cnr.it

Description

La Treebank sintattico-semantica dell'italiano di SI-TAL (progetto finanziato dal MURST nell'ambito della legge 46/82 art.10 realizzato sotto la direzione scientifica del Prof. Zampolli e con la collaborazione di alcuni tra i principali protagonisti della ricerca nazionale nel settore del trattamento automatico del linguaggio) è costituita da un corpus di ~300.000 parole annotato ai livelli ortografico, morfo-sintattico, sintattico (a costituenti e funzionale) e semantico-lessicale. In particolare, l'annotazione sintattica a costituenti riguarda 89.941 parole, quella sintattico-funzionale 305.547, mentre l'annotazione semantico-lessicale ha una copertura di 81.236 parole. Il corpus della Treebank di SI-TAL è suddiviso in due partizioni: a) un corpus "bilanciato", costituito da una selezione di diversi tipi di testi italiani; b) un corpus specializzato, costituito da testi appartenenti al dominio economico-finanziario. Il corpus annotato ai diversi livelli è stato strutturato in un database relazionale per permettere l'accesso ed interrogazioni inter- e intra-livello.

Access mode

in sede locale

Data tipology

Materiali testuali con annotazione linguistica multi-livello

Database type

MYSQL