ISST-TANL Corpus
Institute
Institute of computational linguistics "Antonio Zampolli" (ILC)
Referent
Simonetta Montemagni
Email: simonetta.montemagni@ilc.cnr.it
Description
Il ISST-TANL Corpus (sviluppato nell'ambito del progetto finanziato dalla Fondazione Cassa di Risparmio di Pisa "Analisi di testi per il Semantic Web e il Question Answering") rappresenta un sottoinsieme della Treebank di SI-TAL (ISST) appartenente alla partizione "bilanciata" (ovvero rappresentativa di diversi generi testuali). In particolare, sono state selezionate le porzioni corrispondenti al "Corriere della Sera" e ai "Periodici", per un totale di 79.654 parole (tokens) distribuiti in 4.162 frasi. L'annotazione morfo-sintattica e sintattica a dipendenze originaria è stata convertita in modo semi-automatico per renderla conforme allo schema di annotazione TANL per il livello morfo-sintattico (http://medialab.di.unipi.it/wiki/POS_Tagset) e sintattico a dipendenze (http://medialab.di.unipi.it/wiki/Dependency_Tagset).
Access mode
In sede locale
Data tipology
Materiali testuali con annotazione linguistica multi-livello
Database type
Solo testo secondo il formato di rappresentazione