ISST-TANL Corpus | Consiglio Nazionale delle Ricerche

Database

Institute

Institute of computational linguistics "Antonio Zampolli" (ILC)

Referent

Simonetta Montemagni
Email: simonetta.montemagni@ilc.cnr.it

Description

Il ISST-TANL Corpus (sviluppato nell'ambito del progetto finanziato dalla Fondazione Cassa di Risparmio di Pisa "Analisi di testi per il Semantic Web e il Question Answering") rappresenta un sottoinsieme della Treebank di SI-TAL (ISST) appartenente alla partizione "bilanciata" (ovvero rappresentativa di diversi generi testuali). In particolare, sono state selezionate le porzioni corrispondenti al "Corriere della Sera" e ai "Periodici", per un totale di 79.654 parole (tokens) distribuiti in 4.162 frasi. L'annotazione morfo-sintattica e sintattica a dipendenze originaria è stata convertita in modo semi-automatico per renderla conforme allo schema di annotazione TANL per il livello morfo-sintattico (http://medialab.di.unipi.it/wiki/POS_Tagset) e sintattico a dipendenze (http://medialab.di.unipi.it/wiki/Dependency_Tagset).

Access mode

In sede locale

Data tipology

Materiali testuali con annotazione linguistica multi-livello

Database type

Solo testo secondo il formato di rappresentazione