VoiceXML Italian User Group. Resoconto di Paolo Baggia e Laura Ricotti dell' attivita' W3C (Marzo 2004)

A inizio marzo a Cannes-Mandelieu si sono riuniti tutti i gruppi di lavoro del W3C ed il 3 marzo si � svolta la quarta edizione del "W3C Technical Plenary Meeting". Loquendo ha partecipato all'incontro plenario ed agli incontri dei gruppi Voice Browser e Multimodal Interaction. I rappresentanti erano due: Laura Ricotti e Paolo Baggia.

Se volete divertirvi con alcune foto scattate all'incontro potete seguire questo link.

I partecipanti sono stati 35 da 30 aziende, i chairman sono Jim Larson (Intel) e Scott McGlashan (HP).

Le specifiche VoiceXML 2.0 e SRGS 1.0 (grammatiche di riconoscimento in formato XML e testuale) hanno finito il loro corso di standardizzazione, infatti il 16 marzo 2004 (data storica per le persone coinvolte o interessate a questo settore) queste specifiche sono diventate Raccomandazioni W3C a tutti gli effetti! Evviva!!!

Anche il linguaggio Speech Synthesis Markup Language (SSML 1.0), linguaggio specializzato per migliorare la sintesi di un testo � in fase finale di standardizzazione, cos� il suo Implementation Report (una test-suite realizzata da VBWG per poter testare l'implementabilita' di questa specifica) � stato terminato ed hanno fornito risultati ufficiali gi� quattro aziende (Loquendo, France Telecom, ScanSoft e Voxpilot) tali di garantire il passaggio allo stadio successivo di questa specifica. Lo SSML 1.0 sta per diventare Raccomandazione e speriamo lo sia al pi� presto, anche perch� � contenuto dal VoiceXML 2.0. Se volete giocare un po' con SSML perch� non leggete la specifica e provate ad usare la demo online di Loquendo? Implementa quasi tutto il linguaggio SSML 1.0.

Il gruppo Call Control, autore della specifica CCXML, ha terminato una fase di riscrittuara e consolidamento della specifica che � stata di recente pubblicata sul sito del W3C (vedi) ed � a livello Last Call Working Draft ed anche questa specifica per passare alle fasi finali di standardizzazione.

Inoltre la Semantic Interpretation, cio� la "semantica" delle grammatiche di riconoscimento SRGS 1.0, sta per essere pubblicato Last Call WD. La semantica � utile per poter delegare al riconoscimento la creazione di risultati complessi, es. riconosco Torino e restituisco all'applicazione il codice di provincia, oppure una data e restituisco un formato uniforme, ecc. La Semantic Interpretation � l'ultimo tassello mancante per completa il primo set di specifiche che comprano tutti gli aspetti rilevanti nello sviluppare applicazioni vocali.

Infine si � iniziato a parlare ad alto livello del linguaggio successore del VoiceXML 2.0 per ora indicato come V3. Siamo agli inizi, sar� un'impresa lunga e su questo potremo tornare in futuro. A breve termine invece verr� rilasciata un'aggiunta di feature sul VoiceXML 2.0, chiamato VoiceXML 2.1.

VoiceXML 2.0 - Recommendation, March 16 2004 (Evviva!)
SRGS - Recommendation, March 16, 2004 (Evviva!)
SSML - Proposed Recommendation, 2Q04; full recommendation 3Q04
Semantic Interpretation - Last Call working draft 2Q04
CCXML - Last call working draft, April 30, 2004
VoiceXML 2.1 - working draft March 23, 2004, Last Call working draft 2Q04
V3 Kernel working draft in 1Q05, last call working draft in 1Q06, with a final recommendation 1Q07

2) Incontro del Multimodal Interaction Working Group (MMIWG)

I partecipanti sono stati 45 da 35 aziende, il chairman � Deborah Dahl. Parte del meeting � stata dedicata ad aggiornamenti con altri gruppi del W3C, quali Device Independence (DI), SVG, HTML ed il gruppo dell'accessibilit�' Web (WAI). La multimodalit� infatti ha degli aspetti trasversali delle tecnologie Web.

EMMA (Extensible MultiModal Annotation) protocollo di interfaccia standard per comunicare i risultati della modalit� vocale, ma anche di altre modalit�, quali il Pen/Ink. La peculiarit� di questo linguaggio � di poter annotare i risultati in molti modi diversi.
InkML (Ink Markup Language) specifica del formato digitale Ink, utilizzato per interfacciare device quali Stylus o Pen su Palmari o Tablet PC.
Rendere disponibili informazioni su System&Enviroment per tracciare dinamicamente il cambiamento di propriet� di un device multimodale, es. livello delle batterie, degradi di connettivit�, ma anche capabilities del device o le preferenze dell'utilizzatore.
Approcci per gestire input composito, cio� coordinato tra diverse modalit�, come ad esempio una frase detta selezionando un link sullo schermo o indicando un punto su una mappa. In questo caso per operare un corretta comprensione del comando devono essere integrate due rappresentazioni semantiche per generare un risultato composito.
Studi iniziali ad approcci di gestione dell'interazione multimodale(Interaction Management).

Inoltre il MMIWG ha gestito una sessione dell'incontro plenario su: "Can I Really Get Good Web Access Without Carrying a PC and a Big Screen?" (vedi sotto).

� difficile sintetizzare una giornata di lavoro cos� ricca di argomenti e discussioni, dove per� i temi discussi sono molto specialistici. Potete vedere l'agenda online, riportiamo alcune sensazioni sugli interventi pi� rilevanti per questo gruppo.

Una sessione � stata dedicata al TAG (Technical Advisory Group) istituito tre anni fa per affrontare temi spinosi sollevati da tutta la comunit� Web ed che ha recentemente pubblicato il documento: "Architecture of the World Wide Web, First Edition" che descrive i principi, le limitazioni, le scelte e le good practice dell'architettura Web.

Un'altra sessione era gestita da Deborah Dahl (chairman del MMIWG) su: "Adventures with Mixed Markup Language Documents". Il punto focale era valutare i problemi legati al mischiare linguaggi markup diversi. Una tematica molto interessante oggi in cui si cerca di fattorizzare e riusare i linguaggi in contesti nuovi. Un esempio semplice � il VoiceXML 2.0 che include, o meglio annega, al suo interno i linguaggi SSML e SRGS. La grande sfida del multimodale invece � molto pi� ambiziosa e richiederebbe di includere in una pagina visuale (XHTML) la gestione della voce, integrata con altre modalit� alternative. Nell'ambito multimodale entrambi i linguaggi presentati finora: SALT dal SALT Forum (MS, Intel, Cisco, etc.) e X+V (IBM, Opera e Motorola) richiedono di inserire nuovi elementi in un documento XHTML. C'� molto lavoro da fare nel W3C per creare l'infrastruttura ottimale per fare ci�.

Un'altra ancora riguardava l'importante ruolo delle test-suite per far evolvere le specifiche del W3C. In questo filone si inseriscono gli Implementatio Report come ad esempio quello del VoiceXML 2.0, che verr� usato dal VoiceXML Forum per certificare le piattaforme che supportano il VoiceXML 2.0 (ci addentreremo su questo tema in altra occasione). Pi� in piccolo lo SSML Implementation Report che sta gestendo Loquendo ed � stato implementato dai maggiori produttori di TTS mondiali.

Infine la sessione gi� citata: "Can I Really Get Good Web Access Without Carrying a PC and a Big Screen?", moderata da Scott McGlashan, co-chairman del VBWG. Era una sorta di preview di un futuro che ci attende tra pochi anni, un melange di dimostrazioni che messe insieme formavano uno scenario futuribile per una persona in viaggio di lavoro. I partecipanti mostravano demo delle tecnologie di punta, ad esempio:

Kirusa, con un applicazione multimodale su PDA per l'acquisto online di un biglietto aereo.
HP, con una stampante Wireless in grado di stampare documenti ed anche biglietti acquistati online.
AT&T; che presentava su un Tablet-PC o Kiosk una mappa interattiva capace di gestire in contemporanea richieste vocali integrate con touch sulla mappa. Un esempio veramente avvincente di multimodalit� e di quanti aspetti devono essere integrati per rendere quest'applicazione realistica.

Insomma la Technical Plenary ha offerto spunti di riflessione e anticipazioni del futuro prossimo a venire.

2) Incontro del Multimodal Interaction Working Group (MMIWG)

Other interesting websites