GATTO©
Da diversi anni l'Istituto Opera del Vocabolario Italiano (OVI) utilizza, ai
fini della redazione del TLIO (Tesoro della Lingua Italiana delle Origini) un
software lessicografico interamente progettato e realizzato al suo interno.
Il programma, denominato GATTO© (Gestione degli
Archivi Testuali del Tesoro delle Origini - Copyright CNR 1999), permette di
costruire corpora testuali elettronici a partire da testi scritti e
opportunamente codificati mediante normali programmi di videoscrittura; i
corpora possono essere in seguito modificati tramite inserimento o rimozione di
testi. La marcatura dei testi, da predisporre in ANSI, è attualmente basata su
un sistema di codifica proprietario, mentre è in preparazione una nuova
versione in grado di accettare anche testi scritti in Unicode e marcati in XML.
Le altre parti del programma permettono di lemmatizzare i corpora mediante
associazione di lemmi alle forme grafiche che vi compaiono, sia in riferimento
a specifiche occorrenze delle forme sia definendo collegamenti generali tra
forme e lemmi.
Una lemmatizzazione a più livelli può essere ottenuta raggruppando forme o
lemmi mediante iperlemmi, definibili all'interno di una struttura gerarchica.
I testi, completi di lemmi e iperlemmi associati, possono essere estratti dal
corpus, modificati tramite normali programmi di videoscrittura, quindi
reinseriti nel corpus di partenza o in altri.
Ogni corpus, lemmatizzato o meno, può essere interrogato al fine di estrarre
informazioni lessicografiche relative al corpus completo o a parti di esso
(sottocorpora) definibili di volta in volta in maniera dinamica.
Le ricerche riguardano la localizzazione, all'interno del corpus, di occorrenze
di forme specifiche, precisabili sia direttamente, sia sulla base delle loro
associazioni a lemmi o iperlemmi, sia tramite proprietà associate quali
categorie grammaticali e 'disambiguatori'. Possono essere cercate cooccorrenze
di più forme e/o segni di interpunzione presenti nei testi in successione o in
prossimità. I risultati consistono in una serie di contesti visualizzati ed
esportabili su file RTF. Le altre azioni effettuabili sui corpus includono la
generazione di indices locorum per forme o per lemmi, formari, lemmari,
incipitari, statistiche espresse in forma numerica o grafica.
Una serie di opzioni disponibili in tutte le fasi della ricerca,
dall'impostazione iniziale all'estrazione dei risultati, consente di adeguare i
comportamenti del programma a esigenze molto diverse. A titolo di esempio, è
possibile copiare e incollare in un'apposita finestra un brano tratto da un
testo qualunque e cercare automaticamente, all'interno del corpus o di suoi
sottocorpora, le occorrenze delle forme incluse nel brano copiato,
specificamente evidenziando quelle che invece non vi compaiono.
GATTO consta di oltre 50.000 righe di codice e si appoggia su un motore di
database (e non direttamente sui testi) per effettuare le interrogazioni. È un
programma nato e sviluppato in vista di un uso specialistico e, in quanto tale,
non è di comprensione immediata: per questo motivo è stato dotato di un'ampia
manualistica, sia cartacea che contestuale. Data la varietà delle funzioni di
cui dispone è stato peraltro adottato da gruppi di ricerca esterni all'OVI.
Il programma può essere scaricato liberamente all'indirizzo
http://www.ovi.cnr.it da chiunque desideri utilizzarlo, completo della
manualistica e di un piccolo corpus dimostrativo.
GattoWeb(TM)
Un corpus preparato per GATTO può essere trasformato e messo in grado di
essere interrogato on-line tramite GattoWeb(TM),
versione Web di GATTO. Le funzionalità di GattoWeb, relative alla sola
interrogazione, sono sostanzialmente identiche a quelle di GATTO. Anche
GattoWeb si appoggia su un motore di database, diverso da quello di GATTO.
Il corpus testuale dell'OVI, unitamente ad altri corpora gestiti da GattoWeb, è
attualmente interrogabile on-line a partire dall'indirizzo http://gattoweb.ovi.cnr.it.