Istituto opera del vocabolario italiano (OVI)

Attività di ricerca

1) Redazione del Tesoro della Lingua Italiana delle Origini (TLIO). Il TLIO è un dizionario di prima mano, compilato direttamente sui testi raccolti nelle banche dati dell'OVI. Le norme di redazione sono state elaborate negli anni 1996-97 e pubblicate nel Bollettino dell'OVI, III (1998) e nel sito dell'OVI (nel corso degli anni sono state modificate in alcuni aspetti formali; la versione aggiornata è edita nel sito dell'OVI). La redazione è stata iniziata negli stessi anni, è giunta a 1000 voci alla fine del 1998 e ha proceduto dal 1999 al 2006 a un ritmo di 2000 nuove voci per anno, ridotte a 1000 per anno nel 2007 e 2008, per insufficienza delle risorse. Dal 2009 si è ripreso il ritmo consueto, arrivando ad agosto 2023 a oltre 50.000 voci consegnate. La dimensione finale è prevista in circa 58.000 voci.
Il TLIO è pubblicato in rete in corso d'opera nel sito dell'OVI. Il sistema attuale di consultazione consente, oltre all'accesso dall'indice generale, la ricerca per voci e per forme grafiche (ricerca delle voci sotto le quali sono raccolte determinate forme grafiche), con varie opzioni e con in più la ricerca di testo libero nelle definizioni. Le voci sono firmate, e una funzione di ricerca consente di elencare tutte le voci firmate da un dato redattore. È in corso di elaborazione un nuovo sistema integrato di editing e di interrogazione in rete delle voci, che porterà ad un vocabolario totalmente strutturato.

2) Costituzione, sviluppo e manutenzione di banche dati testuali. La più importante è il "Corpus TLIO per il vocabolario", che è il corpus di riferimento per la redazione del TLIO ed è al tempo stesso uno strumento di ricerca linguistica autonomo, consultabile online; ad agosto 2023, contiene 23.685.634 occorrenze in 3.173 testi (492.817 forme grafiche distinte); la lemmatizzazione copre 4.566.255 occorrenze e procede accanto alla redazione del TLIO. Si affianca il più ampio, ma non lemmatizzato, "Corpus OVI dell'Italiano antico", che integra il Corpus TLIO con svariati testi ed è in costante crescita; contiene 30.176.642 occorrenze in 3443 testi (552.379 forme grafiche distinte). Vi vengono inclusi, indicizzati e resi interrogabili tutti i testi disponibili in edizioni affidabili scritti in qualsiasi varietà dell'italiano prima del 1375 (o databili entro il Trecento). Non sistematicamente vi vengono inclusi anche testi dell'inizio del Quattrocento, testi in edizioni insoddisfacenti ma la cui esclusione creerebbe lacune ancor più dannose (vengono comunque marcati in modo da mettere in guardia il lettore), e testi in altre varietà linguistiche (per es. in friulano o in dialetti galloromanzi) che si ritengono utili per lo studio dell'italiano antico.

3) Elaborazione e sviluppo di software per la ricerca lessicografica e linguistica, in particolare per la gestione di corpora testuali di struttura analoga al Corpus OVI dell'Italiano antico. In particolare, GATTO consente di creare, modificare e gestire banche dati testuali (cioè contenenti testi integrali), e di introdurre una lemmatizzazione a più livelli (lemmi e 'iperlemmi'); GattoWeb consente di rendere interrogabili online corpora creati con GATTO. L'OVI sta elaborando PLUTO, un nuovo strumento per la redazione e la pubblicazione online di dizionari del tipo del TLIO (il software con il quale questo è attualmente edito in rete è anch'esso dell'OVI). Si conducono ricerche sulla lemmatizzazione automatica rivolte ai problemi specifici dei testi italiani antichi.