Definizione e applicazioni.
Gli Agenti Virtuali con Faccia Parlante costitutiscono la più recente proposta per una interazione uomo-macchina più robusta e più naturale rispetto agli attuali sistemi unimodali di sintesi e di riconoscimento automatico del parlato. Sono sistemi più naturali perchè si propongono di riprodurre l'interazione comunicativa umana faccia-a-faccia nella quale l'informazione viene scambiata lungo i canali uditivo e visivo attraverso messaggi verbali, intonazione, gesti, sguardi, espressioni del viso, movimenti del corpo, e più robusti perchè la trasmissione di informazione su più canali garantisce una migliore intellegibilità e comprensione del messaggio, soprattutto nei casi in cui il segnale acustico risultà distorto, danneggiato o ridotto a causa di situazioni ambientali sfavorevoli, di patologie del ricevente o di inadeguatezza del parlato sintetico. Grazie a queste caratteristiche si prevede l'estensione della loro utilizzazione in tutti gli accessi a banche dati, anche in rete, nei servizi di informazione (nella lettura di notiziari, negli annunci commerciali, nelle applicazioni alla didattica per soggetti normali o patologici, nei servizi di vendita, ecc).
Esplicitazione delle informazioni-metodologie già "presenti" nell'IFD
Nella implementazione di un tale Agente Virtuale con Faccia Parlante in italiano viene utilizzata un'ampia serie di dati ricavati dalle ricerche istituzionali linguistiche e informatiche, svolte e in corso presso l'IFD:
- sulle caratteristiche articolatorie, acustiche e percettive delle unità fonologiche segmentali e soprasegmentali del parlato in italiano;
- sugli indici acustici che veicolano le emozioni e sulle caratteristiche spaziotemporali dei movimenti labiali e mandibolari delle unità fonologiche dell'italiano e le loro modificazioni nella realizzazione del parlato emotivo;
- sulla quantità e qualità di informazione trasmessa dai movimenti articolatori visibili, ottenuti da test percettivi di lettura labiale;
- sull'organizzazione della gestualità coverbale, con l'individuazione delle regole di coproduzione tra unità linguistiche del messaggio verbale (parole, caratteristiche prosodiche e intonative) e le diverse tipologie di gesti (simboli, deittici, pantomicici, ideologici, ecc);
- sulle tecniche di codificazione e decodificazione del segnale acustico;
- sulle tecniche di analisi del segnale acustico;
- sui programmi per la sintesi automatica da testo scritto;
- sui programmi per l'animazione facciale e per la sincronizzazione dei segnali verbale e visivo relativo sia ai movimenti facciali della "visual prosody", sia ai gesti coverbali;
Importanza della simulazione
Oltre alla rilevanza applicativa dell'A.V.A non va dimenticata la sua importanza come Tecnica di simulazione dei processi cognitivi sottostanti alla produzione o percezione di enunciati bimodali. Questi implicano l'esplicitazione della rappresentazione delle conoscenze relative al lessico verbale e gestuale (facciale e manuale); l'esplorazione dell'estensione della pianificazione dell'enunciato bimodale; l'individuazione delle regole di coordinazione tra le informazioni inviate lungo il canale uditivo-vocale e quello visivo-cinesico; i processi di codificazione dei significati nei movimenti articolatori, nei movimenti facciali e manuali e i paralleli processi di decodificazione.
Collaborazioni
- "Center for Spoken Language Understanding" (CSLU) - "Oregon Graduate Institute" (OGI), Portland, Oregon USA.
- "Istituto per la Ricerca Scientifica e Tecnologica" (IRST) di Trento.
- "Center for Spoken Language Research" (CSLR) - "Colorado University" (CU), Boulder, Colorado USA.
- "Centre for Speech Technology Research" (CSTR) -Università di Edinburgo, Edinburgh, Scotland UK.
- "Centro Studi e Laboratori Telecomunicazioni" (CSELT) del Gruppo TELECOM di Torino
Adattamenti software per l'italiano
- "CSLU Speech Toolkit " [1] [2]
- "Festival" [3]
- "Baldi" [4]
Riferimenti Bibliografici
[1] Fanty, M., Pochmara, J., and Cole, R.A. 1992. An Interactive Environment for Speech Recognition Research. In Proceedings of ICSLP-92, Banff, Alberta, October 1992, 1543-1546.
[2] Sutton, S., Cole, R.A., de Villiers, J., Schalkwyk, J., Vermeulen, P., Macon, M., Yan, Y., Kaiser, E., Rundle, B., Shobaki, K., Hosom, J.P., Kain, A., Wouters, J., Massaro, D., and Cohen, M., "Universal Speech Tools: The CSLU Toolkit," ICSLP-98, vol. 7, pp. 3221-3224, Sydney, Australia, November 1998.
[3] Paul A. Taylor, Alan Black and Richard Caley (1998). "The Architecture of the Festival Speech Synthesis System", in The Third ESCA Workshop in Speech Synthesis, pp. 147-151.
[4] Massaro, D. W., Perceiving Talking Faces: From Speech Perception to a Behavioral Principle. MIT Press: Cambridge, MA, 1998.
Focus