Consiglio Nazionale delle Ricerche

Tipo di prodottoContributo in volume
TitoloAnnotazione sintattica di corpora: aspetti metodologici
Anno di pubblicazione2009
FormatoCartaceo
Tipologia di contributo in volume-
Autore/iAlessandro Lenci; Simonetta Montemagni; Vito Pirrelli
Affiliazioni autoriILC-CNR; Università di Pisa
Autori CNR e affiliazioni
  • VITO PIRRELLI
  • SIMONETTA MONTEMAGNI VQR
Lingua/e
  • italiano
SintesiUn assunto sempre più condiviso nell'ambito degli studi sull'acquisizione sia di L1 che di L2 è che l'evidenza empirica privilegiata debba essere rappresentata da corpora di produzioni scritte o orali degli apprendenti, estensivamente annotate a molteplici livelli di rappresentazione linguistica. Più in generale, corpora lemmatizzati e annotati a livello morfosintattico fanno ormai parte dello strumentario comune del linguista. Accanto ad essi, si fa però strada l'esigenza di disporre di risorse testuali più sofisticate dal punto di vista delle modalità di esplorazione linguistica, come ad esempio corpora annotati a livello sintattico (le cosiddette treebank). Questi consentono infatti di osservare i processi di convergenza degli apprendenti verso la lingua "obiettivo" anche a livello di specifici tratti grammaticali astratti o di macro-strutture linguistiche. L'articolo propone uno schema di annotazione sintattica caratterizzato da un doppio livello di codifica. Si tratta di un approccio originale che differisce dalla maggior degli schemi di annotazione sintattica esistenti per due aspetti: 1. la separazione della dimensione relazionale da quella a costituenti, che sono trattati a livelli di annotazione indipendenti, ma al tempo stesso correlati, in modo tale che lo stesso testo è simultaneamente interrogabile ai due livelli; 2. la rappresentazione a costituenti fornisce una rappresentazione del testo come sequenza di proto-costituenti sintagmatici non ricorsivi. Questa strategia di annotazione permette una fattorizzazione di diversi aspetti e dimensioni della struttura sintattica che risulta promettente da un lato per l'annotazione di corpora di lingua "non-standard" come quelli contenenti produzioni di apprendenti di L1 o L2, sia come punto di partenza per successivi processi di estrazione di informazione linguistica dal testo. Dopo aver illustrato le motivazioni sottostanti allo schema proposto, ciascun livello di rappresentazione (chunking e dipendenze funzionali) viene illustrato in dettaglio, mostrandone anche la possibilità di combinazione sullo stesso testo. L'articolo si chiude con la discussione di prospettive di uso di corpora annotati secondo lo schema di annotazione proposto.
Lingua sintesiita
Altra sintesi-
Lingua altra sintesi-
Pagine da25
Pagine a46
Pagine totali22
Serie/Collana-
Titolo del volumeCORPORA DI ITALIANO L2: TECNOLOGIE, METODI, SPUNTI TEORICI
Numero volume della serie/collana-
Curatore/i del volumeCecilia Andorno; Stefano Rastelli
ISBN978-88-557-0168-6
Edizione/Versione-
DOI-
Editore
  • Guerra Edizioni, Perugia (Italia)
Verificato da referee-
Stato della pubblicazione-
Indicizzazione (in banche dati controllate)
  • PUMA (Codice:2009-B1-003)
Parole chiaveCorpora annotati, annotazione sintattica
Link (URL, URI)-
Titolo parallelo-
Note/Altre informazioni-
Strutture CNR
  • ILC — Istituto di linguistica computazionale "Antonio Zampolli"
Moduli CNR
    Progetti Europei-
    Allegati
    • Annotazione sintattica di corpora: aspetti metodologici