VoiceXML Italian User Group

Home page  VoiceXML Links  VoiceXML Tutorial  News dai Working Groups Voice Browser e Multimodal Interaction del World Wide Web Consortium  Articoli  Accessibilita' del web mediante la voce

Libri Voice & Speech technologies  La nostra Newsletter  Il nostro Forum  Contatti  Gli eventi a cui lo User Group ha partecipato o partecipera'  Parlano (speriamo bene:-)) di noi...





Resoconto attivita' del W3C Voice Browser Working Group
a cura di Paolo Baggia rappresentante di Loquendo
nei W3C Voice Browser e W3C Multimodal Interaction Working Groups


15 Marzo 2003.


Siamo a metà marzo e vorrei offrire un resoconto per sommi capi dell'attività svolta dal Voice Browser WG di W3C, farò qualche incursione nelle aree di confine, quali il Multimodale.


1) Una nuova versione di VoiceXML 2.0 CR (20 Febbraio 2003)

Gia' vi avevo annunciato la pubblicazione di una nuova versione delle specifiche del VoiceXML 2.0 avvenuta il 18 gennaio scorso. Poi, il 20 febbraio 2003 lo stesso documento è stato ri-pubblicato ai seguenti URLs http://www.w3.org/TR/voicexml20/ e http://www.w3.org/TR/2003/CR-voicexml20-20030220/.

Perché? La causa è legata alla presenza di errori negli Schema allegati alla specifica. Non so se avete notato, ma dalla versione precedente sia la DTD sia gli Schema, cioè gli strumenti per verificare la correttezza di un documento VoiceXML, sono stati spostati da Appendice al documento di specifica ad una URL esterna ad esso. Lo spostamento è stato realizzato proprio per renderne più agevole la correzione di eventuali errori. E questo è ciò che è successo!

Gli Schema sono un meccanismo molto più potente rispetto alle DTD per garantire la correttezza sintattica di un documento XML, inoltre permettono di definire un Namespace per gli elementi di uno specifico linguaggio. Ad oggi però non esiste un modo univoco per provare gli Schema e verificarne la correttezza, tutti, compreso il VBWG, provano gli Schema su un insieme di tool (Xerces, IBM, MS, ecc), ma tale prova non è esaustiva ed errori possono essere ancora riscontrati.

A dire il vero si sperava che la modifica agli Schema non provocasse la ri-pubblicazione del documento di specifica, invece essa ha dovuto essere ri-pubblicata senza alcuna modifica al suo contenuto, ma con un riferimento corretto in Appendice O. Temo che la stessa cosa possa ancora capitare ancora in un prossimo futuro.


2) Sessione plenaria del W3C

Il 5 marzo 2003 si è svolta a Cambridge (Massachusetts, USA) la W3C Technical Plenary, l'incontro annuale di tutti i gruppo di interesse che compongono il W3C. Durante il resto della settimana si sono svolti invece gli incontri dei singoli WG, spesso per affrontare temi di interesse anche ad altri WG e sfruttare appieno la presenza di esperti su aree diverse del mondo Web.

La giornata della sessione plenaria è stata densa di incontri e tavole rotonde. È iniziata con saluto che dipingeva lo stato del W3C offerto da Steve Bratt (W3C Chief Operating Officer), dove sono state presentate le molte attività in corso ed il progresso nel rilascio di Raccomandazioni avvenuto nello scorso anno.

È seguito un panel a cui partecipavano sia il Voice Browser WG, nelle persone di Jim Larson e Scott Mc Glashan, co-chair, il chair del Multimodal Interaction WG, Debbie Dahl, e poi Roger Simpson di Device Independence WG e Janina Sajka di WAI, il gruppo dedicato all'accessibilità dei contenuti Web da parte di persone disabili. Le presentazioni ed il dibattito successivo sono stati interessanti per capire gli obiettivi attuali di questi gruppi, le possibili sinergie e le sfide future che dovranno affrontare. Mi è sembrato molto importante che la Voce sia in ambito VoiceXML sia in quello multimodale abbiano stimolato una riflessione in tutti i gruppi del W3C. Infatti la voce solleva delle questioni nuove e vitali anche per gli altri ambiti del Consorzio. Ritornerò tra poco su alcune delle sfide più importanti per utilizzare appieno la voce nel mondo Web.

Il panel successivo era sulle evoluzioni dell'architettura Web, con particolare enfasi sul ruolo e sulle aspettative verso il TAG (Technical Advisory Group), un gruppo di esperti che ha il compito di affrontare le questioni più spinose sollevate dai tutti i WG. I relatori erano tutti guru del Web, i nomi si commentano da soli: Tim Berners-Lee (responsabile del W3C), Roy Fielding, Dan Connolly, Paul Cotton e altri. Un primo tema in discussione è il documento: "Introduction to Web Architecture" scritto da Tim Bray, che mi sono ripromesso di leggere (http://www.w3.org/TR/webarch/). Poi si è passati ad analizzare alcune questioni spinose: il ruolo delle ID in XML, quando validare un documento XML, questioni legate ai Namespaces, ed altre.

È seguito un panel sull'integrazione di prodotti, si è parlato brevemente di XForms (D. Landwehr, Novell), di X-Smiles (M. Honkala, Univ. Helsinki), di MathML (S. Buswell, Stilo). MathML è un linguaggio XML per scrivere formule matematiche sviluppato da W3C e che ora inizia ad essere utilizzato dall'industria editoriale e dai Browser per la visualizzazione di formule ed equazioni matematiche.

Il tema successivo era la necessità dello sviluppo di un Glossario W3C gestito in modo centralizzato. E' emerso che le diverse specifiche W3C definisco i termini in modo diverso e non c'è un repository comune da cui attingere o su cui basarsi. Un secondo obiettivo è offrire un ausilio alla traduzione in modo coerente delle specifiche W3C in altre lingue oltre all'inglese. L'idea è di sviluppare un tool che permetta di accedere e riferire le definizioni in modo univoco e poterne differenziare l'uso in modo chiaro e motivato.

L'ultimo panel della giornata era dedicato al tema "Un Web o quattro?". I quattro temi su cui si discuteva la convergenza o meno erano: gli aspetti ipertestuali, il protocollo HTTP, i servizi Web ed il Semantic Web, cioè RDF, la capacità annotare i contenuti Web in modo standard e quindi meglio sfruttabile per cercare i contenuti.


3) Voce e Multimodale

Questo ultimo punto è lo stimolo per approfondire, speriamo insieme, un po' meglio il legame tra voce e multimodale. Io ritengo che oggi sia necessario iniziare a pensare su questi temi e a prepararsi ad un futuro che è ormai alle porte.

La voce può servire come una delle modalità che possono essere utilizzate in alternativa, ad esempio alla tastiera o alla scrittura su Tablet. L'avvento di device piccoli, ma sempre più potente contribuirà ad ampliare il divario tra uno schermo piccolo, ma potente per presentare i contenuti, e modalità di input scomode quali una piccola tastiera o la scrittura. La voce può essere un potente ausilio in questo campo. Inoltre la voce sia in ingresso (riconoscimento), sia in uscita (sintesi da testo), può aprire il mondo Web a molte persone che non possono interagire con altre modalità perché impedite nella visione o nella scrittura da tastiera/mouse.

La sfida è molto grande ed il VoiceXML com'è fatto oggi non riesce ad essere efficace in questo abito, infatti le esigenze attuali sono di poter integrare la voce con altre modalità, quindi poter inserire il VoiceXML (o parte di esso) in un altro linguaggio, quale ad esempio l'XHTML (o HTML). Il VoiceXML è una specie di monolito costituito da una quarantina di elementi strettamente legati l'uno all'altro, la sfida sarà di scinderlo in moduli usabili anche separatamente.

Il SALT (proposto dal SALT Forum) è un primo passo in questo senso. Il SALT è costituito da quattro o cinque semplici elementi da inserire a mano o con ausilio di tool (Speech SDK .NET) dentro un altro Markup, quale l'HTML. È indiscutibile che la concisione e l'eleganza del SALT siano un dato molto interessante, d'altro canto però il SALT manca di un chiaro meccanismo per operare una iniziativa mista (cioè riempire più campi di un form con una frase unica, ad esempio: "Parto da Torino e vado a Roma partendo domani mattina alle otto" riesce a sfruttare a pieno le potenzialità della lingua).

Qui si gioca il futuro del VoiceXML (e del SALT) per fornire un ausilio alla creazione di contenuti Web in modo agevole e utilizzando tutte le modalità che via, via la tecnologia offre a disposizione.

Penso che ritornerò su questo argomento in futuro, per il momento vi invito a leggere ciò che ha scritto Jim Larson per il Multimodal Interaction WG e disponibile al seguente URL http://www.w3.org/TR/mmi-framework/.


Paolo Baggia, rappresentante di Loquendo nei W3C VBWG e MMIWG.