Istituto opera del vocabolario italiano (OVI)

Attività di ricerca

1) Redazione del Tesoro della Lingua Italiana delle Origini (TLIO). Il TLIO è un dizionario di prima mano, compilato direttamente sui testi raccolti nelle banche dati dell'OVI. Le norme di redazione sono state elaborate negli anni 1996-97 e pubblicate nel Bollettino dell'OVI, III (1998) e nel sito dell'OVI (nel corso degli anni sono state modificate in alcuni aspetti formali; la versione aggiornata è edita nel sito dell'OVI). La redazione è stata iniziata negli stessi anni, è giunta a 1000 voci alla fine del 1998 e ha proceduto dal 1999 al 2006 a un ritmo di 2000 nuove voci per anno, ridotte a 1000 per anno nel 2007 e 2008, per insufficienza delle risorse. Dal 2009 si è ripreso il ritmo consueto, arrivando a ottobre 2018 a oltre 40.000 voci consegnate. La dimensione finale è prevista in circa 57.000 voci.
Il TLIO è pubblicato in rete in corso d'opera nel sito dell'OVI. Il sistema attuale di consultazione consente, oltre all'accesso dall'indice generale, la ricerca per voci e per forme grafiche (ricerca delle voci sotto le quali sono raccolte determinate forme grafiche), con varie opzioni e con in più la ricerca di testo libero nelle definizioni. Le voci sono firmate, e una funzione di ricerca consente di elencare tutte le voci firmate da un dato redattore. È in corso di elaborazione un nuovo sistema integrato di editing e di interrogazione in rete delle voci, che porterà ad un vocabolario totalmente strutturato.

2) Costituzione, sviluppo e manutenzione di banche dati testuali. La più importante è il Corpus OVI dell'Italiano antico, che è il corpus di riferimento per la redazione del TLIO ed è al tempo stesso uno strumento di ricerca linguistica autonomo, consultabile online; al settembre del 2014, contiene 23.173.522 occorrenze in 2318 testi (467.542 forme grafiche distinte). È formato di due parti consultabili anche separatamente: (a) Corpus TLIO, lemmatizzato, base della redazione del TLIO, che contiene 21.868.399 occorrenze in 1998 testi (444.011 forme grafiche distinte); (b) Corpus TLIO aggiuntivo, non lemmatizzato, usato per integrare le voci del TLIO, che contiene 1.305.828 occorrenze in 320 testi. Vi vengono inclusi, indicizzati e resi interrogabili tutti i testi disponinili in edizioni affidabili scritti in qualsiasi varietà dell'italiano prima del 1375 (o databili entro il Trecento). Non sistematicamente vi vengono inclusi anche testi dell'inizio del Quattrocento, testi in edizioni insoddisfacenti ma la cui esclusione creerebbe lacune ancor più dannose (vengono comunque marcati in modo da mettere in guardia il lettore), e testi in altre varietà linguistiche (per es. in friulano o in dialetti galloromanzi) che si ritengono utili per lo studio dell'italiano antico. La banca dati è parzialmente lemmatizzata (3.654.962 occorrenze lemmatizzate); il lavoro di lemmatizzazione procede accanto alla redazione del TLIO.

3) Elaborazione e sviluppo di software per la ricerca lessicografica e linguistica, in particolare per la gestione di corpora testuali di struttura analoga al Corpus OVI dell'Italiano antico. In particolare, GATTO (versione 3.3, la versione 4 è in elaborazione) consente di creare, modificare e gestire banche dati testuali (cioè contenenti testi integrali), e di introdurre una lemmatizzazione a più livelli (lemmi e 'iperlemmi'); GattoWeb consente di rendere interrogabili online corpora creati con GATTO. L'OVI sta elaborando un nuovo strumento per la redazione e la pubblicazione online di dizionari del tipo del TLIO (il software con il quale questo è attualmente edito in rete è anch'esso dell'OVI). Si conducono ricerche sulla lemmatizzazione automatica rivolte ai problemi specifici dei testi italiani antichi.