VoiceXML Italian User Group

Home page  VoiceXML Links  VoiceXML Tutorial  News dai Working Groups Voice Browser e Multimodal Interaction del World Wide Web Consortium  Articoli  Accessibilita' del web mediante la voce

Libri Voice & Speech technologies  La nostra Newsletter  Il nostro Forum  Contatti  Gli eventi a cui lo User Group ha partecipato o partecipera'  Parlano (speriamo bene:-)) di noi...

La nuova rivoluzione della comunicazione? La tua voce.



Resoconto incontri W3C VBWG, MMIWG e Technical Plenary
(Cannes-Mandelieu, Marzo 2004)
a cura di Paolo Baggia e Laura Ricotti rappresentanti di Loquendo
nei W3C Voice Browser e W3C Multimodal Interaction Working Groups


A inizio marzo a Cannes-Mandelieu si sono riuniti tutti i gruppi di lavoro del W3C ed il 3 marzo si è svolta la quarta edizione del "W3C Technical Plenary Meeting". Loquendo ha partecipato all'incontro plenario ed agli incontri dei gruppi Voice Browser e Multimodal Interaction. I rappresentanti erano due: Laura Ricotti e Paolo Baggia.

Se volete divertirvi con alcune foto scattate all'incontro potete seguire questo link.


1) Incontro del Voice Browser Working Group (VBWG)

I partecipanti sono stati 35 da 30 aziende, i chairman sono Jim Larson (Intel) e Scott McGlashan (HP).

Le specifiche VoiceXML 2.0 e SRGS 1.0 (grammatiche di riconoscimento in formato XML e testuale) hanno finito il loro corso di standardizzazione, infatti il 16 marzo 2004 (data storica per le persone coinvolte o interessate a questo settore) queste specifiche sono diventate Raccomandazioni W3C a tutti gli effetti! Evviva!!!

Anche il linguaggio Speech Synthesis Markup Language (SSML 1.0), linguaggio specializzato per migliorare la sintesi di un testo è in fase finale di standardizzazione, così il suo Implementation Report (una test-suite realizzata da VBWG per poter testare l'implementabilita' di questa specifica) è stato terminato ed hanno fornito risultati ufficiali già quattro aziende (Loquendo, France Telecom, ScanSoft e Voxpilot) tali di garantire il passaggio allo stadio successivo di questa specifica. Lo SSML 1.0 sta per diventare Raccomandazione e speriamo lo sia al più presto, anche perché è contenuto dal VoiceXML 2.0. Se volete giocare un po' con SSML perché non leggete la specifica e provate ad usare la demo online di Loquendo? Implementa quasi tutto il linguaggio SSML 1.0.

Il gruppo Call Control, autore della specifica CCXML, ha terminato una fase di riscrittuara e consolidamento della specifica che è stata di recente pubblicata sul sito del W3C (vedi) ed è a livello Last Call Working Draft ed anche questa specifica per passare alle fasi finali di standardizzazione.

Inoltre la Semantic Interpretation, cioè la "semantica" delle grammatiche di riconoscimento SRGS 1.0, sta per essere pubblicato Last Call WD. La semantica è utile per poter delegare al riconoscimento la creazione di risultati complessi, es. riconosco Torino e restituisco all'applicazione il codice di provincia, oppure una data e restituisco un formato uniforme, ecc. La Semantic Interpretation è l'ultimo tassello mancante per completa il primo set di specifiche che comprano tutti gli aspetti rilevanti nello sviluppare applicazioni vocali.

Infine si è iniziato a parlare ad alto livello del linguaggio successore del VoiceXML 2.0 per ora indicato come V3. Siamo agli inizi, sarà un'impresa lunga e su questo potremo tornare in futuro. A breve termine invece verrà rilasciata un'aggiunta di feature sul VoiceXML 2.0, chiamato VoiceXML 2.1.

Piano delle pubblicazioni del Voice Browser working Group:

  • VoiceXML 2.0 - Recommendation, March 16 2004 (Evviva!)
  • SRGS - Recommendation, March 16, 2004 (Evviva!)
  • SSML - Proposed Recommendation, 2Q04; full recommendation 3Q04
  • Semantic Interpretation - Last Call working draft 2Q04
  • CCXML - Last call working draft, April 30, 2004
  • VoiceXML 2.1 - working draft March 23, 2004, Last Call working draft 2Q04
  • V3 Kernel working draft in 1Q05, last call working draft in 1Q06, with a final recommendation 1Q07

2) Incontro del Multimodal Interaction Working Group (MMIWG)

I partecipanti sono stati 45 da 35 aziende, il chairman è Deborah Dahl. Parte del meeting è stata dedicata ad aggiornamenti con altri gruppi del W3C, quali Device Independence (DI), SVG, HTML ed il gruppo dell'accessibilità' Web (WAI). La multimodalità infatti ha degli aspetti trasversali delle tecnologie Web.

Le attività in corso nel MMIWG su si è lavorato sono le seguenti:

  • EMMA (Extensible MultiModal Annotation) protocollo di interfaccia standard per comunicare i risultati della modalità vocale, ma anche di altre modalità, quali il Pen/Ink. La peculiarità di questo linguaggio è di poter annotare i risultati in molti modi diversi.
  • InkML (Ink Markup Language) specifica del formato digitale Ink, utilizzato per interfacciare device quali Stylus o Pen su Palmari o Tablet PC.
  • Rendere disponibili informazioni su System&Enviroment per tracciare dinamicamente il cambiamento di proprietà di un device multimodale, es. livello delle batterie, degradi di connettività, ma anche capabilities del device o le preferenze dell'utilizzatore.
  • Approcci per gestire input composito, cioè coordinato tra diverse modalità, come ad esempio una frase detta selezionando un link sullo schermo o indicando un punto su una mappa. In questo caso per operare un corretta comprensione del comando devono essere integrate due rappresentazioni semantiche per generare un risultato composito.
  • Studi iniziali ad approcci di gestione dell'interazione multimodale(Interaction Management).

Inoltre il MMIWG ha gestito una sessione dell'incontro plenario su: "Can I Really Get Good Web Access Without Carrying a PC and a Big Screen?" (vedi sotto).


3) W3C Technical Plenary

È difficile sintetizzare una giornata di lavoro così ricca di argomenti e discussioni, dove però i temi discussi sono molto specialistici. Potete vedere l'agenda online, riportiamo alcune sensazioni sugli interventi più rilevanti per questo gruppo.

Una sessione è stata dedicata al TAG (Technical Advisory Group) istituito tre anni fa per affrontare temi spinosi sollevati da tutta la comunità Web ed che ha recentemente pubblicato il documento: "Architecture of the World Wide Web, First Edition" che descrive i principi, le limitazioni, le scelte e le good practice dell'architettura Web.

Un'altra sessione era gestita da Deborah Dahl (chairman del MMIWG) su: "Adventures with Mixed Markup Language Documents". Il punto focale era valutare i problemi legati al mischiare linguaggi markup diversi. Una tematica molto interessante oggi in cui si cerca di fattorizzare e riusare i linguaggi in contesti nuovi. Un esempio semplice è il VoiceXML 2.0 che include, o meglio annega, al suo interno i linguaggi SSML e SRGS. La grande sfida del multimodale invece è molto più ambiziosa e richiederebbe di includere in una pagina visuale (XHTML) la gestione della voce, integrata con altre modalità alternative. Nell'ambito multimodale entrambi i linguaggi presentati finora: SALT dal SALT Forum (MS, Intel, Cisco, etc.) e X+V (IBM, Opera e Motorola) richiedono di inserire nuovi elementi in un documento XHTML. C'è molto lavoro da fare nel W3C per creare l'infrastruttura ottimale per fare ciò.

Un'altra ancora riguardava l'importante ruolo delle test-suite per far evolvere le specifiche del W3C. In questo filone si inseriscono gli Implementatio Report come ad esempio quello del VoiceXML 2.0, che verrà usato dal VoiceXML Forum per certificare le piattaforme che supportano il VoiceXML 2.0 (ci addentreremo su questo tema in altra occasione). Più in piccolo lo SSML Implementation Report che sta gestendo Loquendo ed è stato implementato dai maggiori produttori di TTS mondiali.

Infine la sessione già citata: "Can I Really Get Good Web Access Without Carrying a PC and a Big Screen?", moderata da Scott McGlashan, co-chairman del VBWG. Era una sorta di preview di un futuro che ci attende tra pochi anni, un melange di dimostrazioni che messe insieme formavano uno scenario futuribile per una persona in viaggio di lavoro. I partecipanti mostravano demo delle tecnologie di punta, ad esempio:

  • Kirusa, con un applicazione multimodale su PDA per l'acquisto online di un biglietto aereo.
  • HP, con una stampante Wireless in grado di stampare documenti ed anche biglietti acquistati online.
  • AT&T; che presentava su un Tablet-PC o Kiosk una mappa interattiva capace di gestire in contemporanea richieste vocali integrate con touch sulla mappa. Un esempio veramente avvincente di multimodalità e di quanti aspetti devono essere integrati per rendere quest'applicazione realistica.

Insomma la Technical Plenary ha offerto spunti di riflessione e anticipazioni del futuro prossimo a venire.


Paolo Baggia e Laura Ricotti, rappresentanti di Loquendo nei W3C VBWG e MMIWG.