VoiceXML Italian User Group

Home page  VoiceXML Links  VoiceXML Tutorial  News dai Working Groups Voice Browser e Multimodal Interaction del World Wide Web Consortium  Articoli  Accessibilita' del web mediante la voce

Libri Voice & Speech technologies  La nostra Newsletter  Il nostro Forum  Contatti  Gli eventi a cui lo User Group ha partecipato o partecipera'  Parlano (speriamo bene:-)) di noi...

La nuova rivoluzione della comunicazione? La tua voce.



Intervista di Paolo Baggia (Loquendo) al Dr. T.V. Raman (Luglio 2004).
(Click here for the original interview in English)


Abbiamo l'occasione di porre alcune domande al Dr. T.V. Raman, che lavora all'IBM Research in Almaden. Il Dr. Raman è uno degli inventori del linguaggio per applicazioni multimodali X+V ed è un esperto mondiale di integrazione della voce nelle applicazioni Web.

Paolo Baggia, representative of Loquendo at W3C MMIWG and VBWG


[Paolo Baggia] Quali sono i vantaggi offerti da X+V allo sviluppo di applicazioni multimodali?

[Dr. T.V. Raman] Innanzitutto vorrei porre XHTML+VoiceXML, detto X+V, nel suo contesto. Il Consorzio W3C sta sviluppando standard diversi: XHTML, SVG, SMIL, etc. Il termine multimodale significa tener insieme diverse modalità, quali ad esempio la voce, touch, gesture, ecc. Il nostro obiettivo era di poter combinare standard W3C affinché potessero cooperare tra loro. X+V ne è un esempio, è una specie di paradigma, un modo per fare sì che XHTML e VoiceXML possano lavorare insieme tramite uno strato che funga da collante. Non è necessario creare un nuovo linguaggio per il multimodale, ma prendere il meglio del visuale (XHTML) con il meglio del vocale (VoiceXML) e poterli combinare tra loro. Un altro esempio, chi ama la grafica vettoriale può usare la stessa idea e proporre un XHTML + VoiceXML + SVG (specifica W3C per la grafica vettoriale). Questo è il principale contributo di X+V alla multimodalità


[P.B.] Può chiarire ulteriormente cosa intende per uno 'strato collante'?

[Dr. T.V. Raman] Il collante e' necessario al livello dell'interazione utente. Ad esempio: se l'utente pigia un bottone si genera un evento, se poi usa la modalità vocale viene inviato un altro evento, ciò che manca è un modello ad eventi che permetta tutto ciò.
In X+V vengono utilizzati gli XML Events, che è una sintassi per creare gestori di eventi nel DOM di un browser visuale e permettere un binding degli eventi. In questo modo un click del mouse può attivare un dialogo VoiceXML, come gestore dell'evento.
Il VoiceXML può collezionare dati da un utente tramite la voce e può allo stesso tempo generare eventi allo XHTML per aggiornare la GUI.
Se ad un menu si dice vocalmente: “Voglio andare a Torino”, l'evento generato in XHTML fa selezionare Torino nel menu visuale. Ovviamente vale anche il viceversa, il click del mouse su Torino genera un evento nel VoiceXML facendo chiedere in risposta: “Vuole andare a Torino?”.Questo è in sintesi il framework multimodale creato da X+V.

Perciò in sintesi, i contributi maggiori sono due:
1. Portare gli standard W3C a lavorare insieme;
2. Usare XML Event come collante per fare cooperare gli standard a runtime.


[P.B.] Lei ritiene ci sia un interesse verso le applicazioni multimodali oggi?

[Dr. T.V. Raman] E' un campo emergente. Permette di usare la multimodalità in aree in cui c'è già una GUI. Ad esempio è di grande interesse per l'ambito automobilistico (mani libere), per PDA, per entertainment. In tutti questi ambiti si ha a disposizione un display e la voce può essere una modalità ausiliaria da aggiungere.


[P.B.] Perché allora ci sono così poche applicazioni multimodali?

[Dr. T.V. Raman] In parte i lanci pubblicitari sono stati anticipati, ad oggi le applicazioni solo vocali sono ancora molto importanti. Questa è una ragione in più per fondare il multimodale sul VoiceXML, per la sua scalabilità. Il denaro può essere investito nel VoiceXML, ma allo stesso tempo servire a sperimentare le applicazioni mutlimodali in X+V. Fare leva sugli investimenti del VoiceXML per usarli in un area ancora sperimentale.


[P.B.] Pensate che ci possa essere una competizione tra applicazioni solo vocali e quelli multimodali?

[Dr. T.V. Raman] No affatto possono cooperare e coesistere. Il numero di telefoni non è destinato a diminuire, non tutti spariranno. Le due aree si complimenteranno a vicenda.


[P.B.] Quali differenze vede tra il mercato USA, quello europeo ed altri mercati emergenti?

[Dr. T.V. Raman] L'Europa può giocare un ruolo pilota, a causa della penetrazione della rete mobile, molto più sviluppata che non negli USA. L'Europa può sfuggire prima al solo PC, ha più opportunità oggi per sviluppare applicazioni innovative.


[P.B.] E per gli altri mercati?

[Dr. T.V. Raman] Per l'Asia è persino più necessario vista la difficoltà maggiore ad usare la tastiera per le sue lingue. In India invece è rilevante per questioni di alfabetizzazione. Ad esempio il “Simputer” (una specie di kiosk) è in uso nei villaggi ed è principalmente multimodale. E' usato per poter vedere i prezzi dei prodotti ed averli aggiornati in tempo reale. Per una persona che non sa leggere il vedere delle figure e poter capire i prezzi è molto importante, perciò l'uso della voce e di immagini è fondamentale in tale contesto. In tutto il resto del mondo, per i mercati emergenti il mercato multimodale può essere molto esteso, la gente è pronta ad usare queste tecnologie.


[P.B.] Non pensa possa essere troppo costoso?

[Dr. T.V. Raman] Il “Simputer” in India costa 150$ per il device, ma le persone del villaggio lo usano con smartcard da 1$, per loro la multimodalità è molto più adatta del monomodale.


[P.B.] Chi ha creato il Simputer?

[Dr. T.V. Raman] Un gruppo Open Source ha fatto la specifica HW ed ora sono pronti a provarlo in altre nazioni.


Dr. T.V. Raman    

Il Dr. T.V. Raman è un esperto mondiale di interfacce vocale, di linguaggi di scripting, di tecnologie Internet tra cui Web server applications e standard Web. Ha ricevuto il PhD alla Cornell University nel 1994. E' coinvolto in vari W3C Working Groups e partecipa attivamente all'evoluzione della specifica XML per la prossima generazione di WWW nell'ambito specifico di XForms, XML Events e X+V. E' autore della specifica Aural CSS (ACSS); nel 1996 ha realizzato la prima implementazione di ACSS ed è inoltre autore di tre libri ed ha redatto più di 20 brevetti.

Per approfondimenti potete scrivergli a: tvraman@almaden.ibm.com
I suoi siti web personali sono:
http://almaden.ibm.com/u/tvraman/
http://emacspeak.sourceforge.net/raman/ (emacspeak un'interfaccia vocale – solo in output – per Linux creta dal Dr. Raman nel tempo libero).
Potete anche incontrare Bubble, la sua attuale 'guida visiva' canina e la sua precedente Aster sempre su http://emacspeak.sourceforge.net/raman/