Joint research project

The Universal Ocean: a semi-automated system for the morphological, syntactic and semantic classification of Arabic triliteral verbs

Project leaders
Vito Pirrelli, Mohammed El Mohajir
Agreement
MAROCCO - CNRST - Centre National pour la Recherche Scientifique et Technique
Call
CNR/CNRST 2016-2017
Department
Social sciences and humanities, cultural heritage
Thematic area
Social sciences and humanities, cultural heritage
Status of the project
New

Research proposal

Negli ultimi vent'anni, il progressivo intensificarsi dei contatti economici, sociali e culturali tra l'Italia e il mondo arabofono non è stato adeguatamente accompagnato e sostenuto dallo sviluppo di strumenti software per il trattamento automatico di testi paralleli in italiano e arabo. Il consolidamento di tecnologie computazionali integrate destinate a entrambe le lingue rappresenterebbe un passo importante verso una maggiore comunicazione, condivisione, collaborazione e integrazione nel bacino del Mediterraneo, in ambito socio-culturale e strettamente economico. La disponibilità di algoritmi che consentano di valutare comparativamente la complessità morfologica, sintattica e semantica di testi paralleli in entrambe le lingue consentirebbe, infatti, di pervenire a una precisa valutazione quantitativa delle difficoltà connesse all'uso scritto delle due lingue in contesti comunicativi comparabili. Allo stesso tempo, rappresenterebbe uno strumento di grande utilità nella valutazione del processo di apprendimento dell'italiano da parte di parlanti nativi arabi, e dell'arabo da parte di parlanti nativi italiani, aiutando la scuola a confrontarsi con una popolazione di alunni tendenzialmente più variegata e multiforme che in passato, e a migliorare l'offerta di contenuti personalizzabili e adattabili a specifiche esigenze linguistico-culturali e socio-economiche.

La relativa esiguità di risorse lessicali digitali pubblicamente disponibili per la lingua araba costituisce probabilmente il maggiore ostacolo allo sviluppo di tecnologie di "parsing" di nuova generazione per l'arabo classico, in cui i livelli di analisi morfologica, sintattica e semantica definiscono una rete multidimensionale di vincoli da soddisfare in parallelo. Tuttavia, la creazione puramente manuale di risorse lessicali di grandi dimensioni, corredate di informazioni linguistiche a più livelli (morfo-fonologico, morfo-sintattico e semantico), richiederebbe l'impiego di un numero ampio di personale specializzato, e uno sforzo organizzativo ed economico di dimensioni considerevoli.

Nell'ambito della presente proposta di collaborazione tra Marocco e Italia, intendiamo avviare un progetto pilota per l'acquisizione e la classificazione semi-automatiche di informazioni lessicali digitali a partire da risorse lessicografiche arabe non strutturate preesistenti. Il processo intende avvalersi di algoritmi per la ricerca, l'accesso e la rappresentazione formalizzata di informazioni relative al comportamento morfologico, morfo-sintattico e semantico dei verbi arabi a partire da un'opera lessicografica non strutturata di straordinaria ricchezza e di fondamentale importanza nella storia della lingua e della cultura arabe: "L'Oceano Universale" (Al-Qamus Al-Muhit), opera tardo-medievale di El-Firuz Abadi (1329-1414).

La morfologia della lingua araba consente di convogliare una grande varietà di tratti semantici e sintattici delle parole. Concentrandosi sul sistema verbale, tutti i verbi possono essere derivati da una radice di tre consonanti (nel qual caso si parla di verbo trilittero) o di quattro consonanti (nel qual caso si parla del verbo quadrilittero).

La forma di base o I forma di un verbo si ottiene vocalizzando le sue consonanti radicali. Altri verbi, chiamati "derivati", sono derivati dal verbo di I forma.

esempio 1: dalla radice kbr:
kabura "essere grande";
kabbara "rendre qc grande",
istakbara "vedere qc grande"

esempio 2: dalla radice d%rç
da%raça "fare rotolare"
tada%raça "rotolarsi"

Tutti i verbi trilitteri hanno la prima e l'ultima consonante della radice vocalizzate in /a/ e variano in funzione della vocale mediana, la cui valenza è tipicamente semantica:

esempio 3: tutti i verbi che hanno la vocale mediana /u/, e quindi appartengono alla classe paradigmatica C1aC2uC3a, esprimono uno stato o una qualità duratura e sono di conseguenza intransitivi. Nei dizionari, questo tipo di verbo è sempre accompagnato da un aggettivo che ne esprime la qualità (o lo stato): kabura "è grande"; e quindi esso è kabiir "grande"
nabula "è nobile" e quindi esso è nabiil "nobile"
qabu%a "è brutto" quindi esso è kabii% "brutto".

esempio 4: i verbi che hanno la vocale mediana /i/, e classe paradigmatica C1aC2iC3a:
- possono esprimere una qualità non duratura e in questo caso sono caratterizzati da un aggettivo come i verbi che hanno la \u\:
mari
a "è malato" quindi esso è mar+
- possono avere un valore medio, e in questo caso possono essere transitivi o intransitivi:
kabira "invecchiare" quindì esso è kab+r;
?ariba "bere".

esempio 5: tutti i verbi che hanno la vocale mediana /a/ e classe paradigmatica C1aC2aC3a sono verbi di azione e possono essere transitivi o intransitivi:
kabara "superare"
kataba "scrivere"
çalasa "sedersi".

Nei trattati di grammatica tradizionale, gli studiosi sono arrivati a spiegare il comportamento sintattico del verbo arabo mettendo in relazione la struttura morfologica con il contenuto semantico e il comportamento morfo-sintattico del verbo. In linea teorica, la regolarità di queste relazioni permetterebbe di predire il comportamento morfosintattico di un verbo e le restrizioni semantiche sui suoi argomenti a partire dalla sua classe paradigmatica. Tuttavia una ricognizione rigorosa e sistematica dei verbi trilitteri non è mai stata fatta. Pertanto, un approccio quantitativo rigoroso allo studio di queste classi sembra essere una condizione indispensabile per valutare la distribuzione delle forme verbali nel dizionario, e per stabilire fino a che punto le caratteristiche morfologiche del verbo incidono su quelle sintattiche e semantiche. Studiando le relazioni morfo-sintattiche e le restrizioni semantiche imposte dal verbo, il progetto intende verificare la portata e sistematicità di questa interazione.

Research goals

Obiettivo principale della proposta è procedere a una ricognizione quantitativa sistematica dei verbi trilitteri arabi, sulla base dei dati acquisiti applicando una batteria di procedure automatiche di estrazione delle informazioni lessicali a un importante lessico a stampa della lingua araba: Al-Qamus Al-Muhit.

I dati acquisiti permetteranno di validare nel dettaglio il grado di sistematicità delle relazioni di mutua implicazione tra tratti semantici (agentività e selezioni di restrizione), morfologici (struttura del paradigma) e sintattici (valenza argomentale e assegnazione dei casi) nel sistema verbale arabo. In seconda battuta, i dati acquisiti rappresenteranno la solida base empirica per una classificazione del verbo trilittero arabo secondo schemi di classificazione sintattico-semantica già validati per altre lingue.

Questo insieme di informazioni costituirà il nucleo di un lessico computazionale della lingua araba che il progetto intende mettere gratuitamente a disposizione della comunità scientifica e che sarà utilizzato dai due partner per lo sviluppo strumenti avanzati per il trattamento automatico dell'arabo.

Il progetto contribuirà infine a consolidare i legami di collaborazione in corso tra ILC-CNR e l'Università Sidi Mohamed Ben Abdellah di Fès, che durante il 2014 hanno organizzato congiuntamente due workshop internazionali sul trattamento automatico della lingua araba e che hanno avviato, tra il 2014 e il 2015, alcune tesi di dottorato in co-tutoraggio.

Last update: 08/10/2024