VoiceXML Italian User Group

Home page  VoiceXML Links  VoiceXML Tutorial  News dai Working Groups Voice Browser e Multimodal Interaction del World Wide Web Consortium  Articoli  Accessibilita' del web mediante la voce

Libri Voice & Speech technologies  La nostra Newsletter  Il nostro Forum  Contatti  Gli eventi a cui lo User Group ha partecipato o partecipera'  Parlano (speriamo bene:-)) di noi...





Resoconto del meeting (Redmond Washington - USA, 2-6 Giugno 2003)
di W3C Voice Browser e Multimodal Interaction WG
a cura di Paolo Baggia rappresentante di Loquendo nei
W3C Voice Browser e W3C Multimodal Interaction Working Groups


Giugno 2003.


Gli incontri si sono svolti a Redmond, vicino a Seattle, ospiti di Microsoft, tra il 2 ed il 6 giugno 2003.

Sommario dei lavori del Voice Browser Working Group.

L'Implementation Report per il VoiceXML 2.0 e' quasi completo; si prospetta il passaggio della specifica da Candidate Recommendation a Proposed Recommendation entro settembre 2003 (per essere piu' realistici tempo entro fine anno).
Di li' in poi il passaggio e' pressoche' automatico e si giungera' all'agognata raccomandazione W3C del VoiceXML 2.0.
Le grammatiche SRGS stanno per giungere a livello Proposed Recommendation e dovrebbero divendare Raccomandazione con il VoiceXML 2.0. Il lavoro tecnico e' ancora aperto sul SSML per pilotare il sintetizzatore e per la parte Semantica delle grammatiche SRGS. Il primo a raggiungere il livello Candidate Recommendation dovrebbero essere il SSML e cio' dovrebbe avvenire entro Settembre 2003.
Un altro aspetto definito durante l'incontro e' di estendere il VoiceXML 2.0 con una lista limitata di nuove funzionalita'.
Tale lista deve permettere una assoluta' compatibilita' all'indietro e fornire delle feature che aiutino gli sviluppatori a creare dei servizi ancora piu' potenti e portabili. E' ancora prematuro parlare di quali saranno queste funzionalita', ma il primo Working Draft verra' rilasciato a settembre 2003.
Infine una nuova versione e' in gestazione (e' detta per ora "V3"), lo scope e' di fornire un nuovo markup language volto a permettere nuove funzionalita' capaci di realizzare una nuova generazione di applicazioni vocali, tutto cio' in una forma che possa essere integrata in modo semplice e pulito con le altre specifiche di W3C. Per esempio il Multimodal Interaction dovra' poter integrare dei dialoghi vocali con le altre modalita' per realizzare delle applicazioni multimodali che includano la voce.
Questo nuovo linguaggio fornira' rispetto al VoiceXML 2.0 delle estese capacita' di dialogo, una maggior flessibilita' ed essere modularizzabile per permettere di integrare con altri markup language, quali XHTML, XMIL o SVG, il dialogo vocale. Su questo fronte il lavoro e' partito ad inizio 2003 con la raccolta di requisiti dettagliati. Tali requisiti provengono da diverse fonti, quali le Change Requests al VoiceXML 2.0 deferite, l'interoperabilita' con il Call Control (CCXML) e da altri WG di W3C: il Multimodal Interaction, XHTML e Web Accessibility Initiative (WAI). Si prevede di rendere pubblici questi requisiti in settembre 2003 e pubblicare il primo Working Draft a inizio 2004.
Un ulteriore sotto-gruppo e' nato recentemente e si chiama Voice Interface Object joint task force a cui partecipano persone sia di Voice Browser che di Multimodal Working Group, l'obiettivo e' definire dei Voice Interface object per SALT 1.0, X+V 1.1 e V3. I primi due sono gli ambienti multimodali definiti dal SALT Forum capeggiato da Microsoft, il secondo la proposta di IBM, Opera e Motorola. Insomma l'arena multimodale sta guidando sia l'integrazione delle tecnologie vocali nel mondo del Web ed e' la nuova grande sfida dopo la nascita del VoiceXML 2.0.
Ultimo punto e' la pubblicazione di un ulteriore draft del linguaggio Call Control XML (CCXML). Questa attivita' e' finalizzata a terminare la parte tecnica entro tre mesi. Questo nuovo linguaggio e' complementare al VoiceXML 2.0 per quanto concerne la gestione di azioni telefoniche, quali conferenze, trasferimenti tra piu' browser VoiceXML, funzioni di 'whispering' e 'coaching', cioe' suggerimenti nascosti al chiamante, ma diretti agli operatori di call center o ad insegnati on-line. E' anche questa una nuova sfida per il mondo legato al VoiceXML 2.0.

Sommario dei lavori del Multimodal Interaction Working Group.

Invito chi vuole avere una prima idea dei lavori sul multimodale a leggere (purtroppo in lingua inglese) la Nota W3C, W3C Multimodal Interaction Framework, disponibile all' URL http://www.w3.org/TR/mmi-framework/, scritta da Jim Larson e pubblicata il 2 dicembre 2003.
Questo documento introduce alcuni schemi di riferimento sull'organizzazione e i moduli che possono essere presenti in un 'browser' multimodale. E' un'utile introduzione a questo nuovo ambito.

I prossimi passi prevedono la pubblicazione di due primi Working Draft per due delle modalita' di input maggiori di un sistema multimodale:

1.InkML, il linguaggio per rappresentare i risultati di 'gesture' e scrittura tramite Pen o Stylus.

2. la voce, tramite il linguaggio di interfaccia denominato EMMA (Extensible MultiModal Annotation)

Queste sono le due principali modalita' che saranno disponibili su un 'browser' multimodale. La prima per indicare, sottolineare, riferire delle entita' visuali, la seconda per descrivere e/o fare delle richieste. Un primo esempio puo' essere indicare con un cerchio una zona di una mappa digitale di una citta' ed unire a questa la richiesta vocale: "Indica i ristoranti". Come vedete entrambe le informazioni sono necessarie per poter fornire una risposta integrata, sottoforma di una mappa annotata dei ristoranti o una lista di scelte tramite menu'.

EMMA in realta' permettara' di impacchettare i risultati di tutte le modalita' di input e permettere anche di integrare risultati diversi per costruire un risultato semantico composito.
Attendiamo di leggere queste prime specifiche a cui seguiranno nel corso del 2003 le prime bozze del linguaggio di specifica multimodale complessivo.


Come vedete i lavori procedono e formeranno la base di una nuova generazione di interfacce vocali e multimodali per la prossima generazione di 'browser' sia su PC desktop, sia soprattutto su piccoli device (palmari, PocketPC e SmartPhone).


Paolo Baggia, rappresentante di Loquendo nei W3C VBWG e MMIWG.