VoiceXML Italian User Group

Home page  VoiceXML Links  VoiceXML Tutorial  News dai Working Groups Voice Browser e Multimodal Interaction del World Wide Web Consortium  Articoli  Accessibilita' del web mediante la voce

Libri Voice & Speech technologies  La nostra Newsletter  Il nostro Forum  Contatti  Gli eventi a cui lo User Group ha partecipato o partecipera'  Parlano (speriamo bene:-)) di noi...

La nuova rivoluzione della comunicazione? La tua voce.



Resoconto incontri W3C VBWG e MMIWG Marzo 2006 (Cannes-Mandelieu, Francia)
a cura di Paolo Baggia rappresentante di Loquendo
nei W3C Voice Browser e W3C Multimodal Interaction Working Groups


I meeting si sono svolti a Mandelieu un paesino vicino a Cannes (Francia). L' incontro primaverile avviene ogni anno in concomitanza con la sessione plenaria del W3C. In genere un anno a Boston ed il successivo a Mandelieu. La spiegazione del fatto e' semplice, il consorzio W3C e' stato fondato da tre enti: Il MIT (Cambridge, Boston), l' ERCIM con sede a Sophia Antipolis nell'entroterra di Cannes, ed il KEIO giapponese. Per ora non ci sono stati incontri plenari in Giappone. Descrivero' in questo resoconto i principali risultati degli incontri del Multimodal Interaction WG (27-28 Febbraio), del Voice Browser WG (2-3 Marzo) e daro' qualche accenno in merito alla W3C Technical Plenary (1 Marzo).


1) Incontro del Multimodal Interaction (MMIWG)
L'AT&T; continua a promuovere il sistema di dialogo "Florence". L'obiettivo e' di cercare di renderlo standardizzabile. I commenti durante l'incontro sono stati positivi, ma l'attivita' non e' ancora stata decisa.

La specifica EMMA (Extensible Multimodal Annotation), il linguaggio per formattare i dati ritornati da varie modalita' di input ad un sistema multimodale (voce, handwriting, ecc.), sta continuando l'iter di standardizzazione. Ora ha raggiunto il livello Last Call Working Draft, vedi il documento pubblicato lo scorso settembre. Il prossimo passo e' di definire come testarne l'implementabilita'. Questa specifica e' importante per le piattaforme vocali o multimodali del futuro che ne' potranno fare grande uso.

Altri documenti verranno pubblicati a breve come Note W3C o come specifiche. Per l'architettura di un sistema Multimodale avremo a breve un nuovo draft aggiornato. Altri contributi riguarderanno degli esempi di utilizzo del SCXML in ambito multimodale ed un documento di feedback da parte di sviluppatori di applicazioni multimodali che, ad oggi, sono purtroppo pochi e concentrati soprattutto negli USA in aziende quali Kirusa, V-Enable, Openstream, oppure IBM (linguaggio XHTML+VoiceXML).

Inciso: Loquendo ha sviluppato un servizio multimodale attualmente in esercizio in Spagna presso la banca spagnola BankInter, che permette di accedere ad informazioni bancarie via cellulare sia tramite voce che tramite tastierino. Il servizio e' molto innovativo e la parte vocale da noi curata funziona particolarmente bene. In effetti la rete mobile europea potrebbe fornire un accesso migliore verso servizi innovativi quali quelli multimodali.


2) Incontro del Voice Browser (VBWG)
Il focus e' sempre piu' marcatamente indirizzato verso il futuro del VoiceXML 3.0. La specifica SCXML, State Chart XML (SCXML): State Machine Notation for Control Abstraction, continua il suo iter di standardizzazione. Ora si entra nel caldo della discussione delle feature da introdurre nel VoiceXML 3.0. Senz'altro la Speaker Verification, anche se tale tecnologia solleva una marea di questioni legate alla sicurezza dei dati personali, infatti l'impronta vocale (voiceprint) che serve per autenticare una persona tramite la voce, ad esempio verso un serivizio bancario, deve essere soggetta a protezione accurate essendo un dato biometrico caratteristico di una persona.

Il mondo dei servizi mobili del futuro spinge per avere piu' multimedialita', non solo la voce come in VoiceXML 2.0, ma anche altri media, quali il video. In questo modo il linguaggio VoiceXML verrebbe utilizzato per gestire interazioni audio/video probabilmente su terminale mobile.

Io sono autore del Pronunciation Lexicon Specification (PLS), tema che non era in agenda di questo incontro ed e' quindi stato trattato informalmente nei momenti liberi, soprattutto per capire le esigenze della lingua giapponese molto complessa soprattutto nella parte scritta. I prof. Nitta (Univ. Toyohashi) e Kazuyuki Ashimura (il nuovo referente W3C per VB) sono stati molto pazienti nel cercare di spiegare questioni che affondano le radici nella intricata storia di una lingua e da li' della sua cultura.


3) W3C Technical Plenary
I temi in discussione erano molti, l'agenda e le slides disponibili le potete trovare online cliccando qui.

Riporto alcuni accenni. I lavori sono stati aperti dal CEO di W3C, Steve Bratt, che ha illustrato lo stato del consorzio W3C e quanto esso sia attivo ed alcune nuove iniziative in corso d'opera, come quelle di Mobile Web, di Ubiquitous Web e di Internazionalizzazione di SSML. Inoltre ha spiegato che verranno lanciate delle iniziative esplorative chiamate Incubator Activities.

Una sessione dal titolo: "My Data, Your Data, The Web's Data: Challenges of Data Ownership" riguardava le problematiche di privacy emerse recentemente vista la diffusione della condivisione di informazioni, quali Blog ed interventi online. Il tema era molto sentito da tante persone e per la parte europea era presente Bruno von Niman dell'ANEC, agenzia della Commissione Europea preposta a studiare questi temi in Europa.

C'e' stato molto interesse verso Microformats, nella presentazione di Tantek Çelik (Technorati) dove potrete trovare dei link utili per approfondire la tematica. In sintesi l'idea e' di utilizzare cio' che gia' CSS e XHTML mettono a disposizione (class e ref) per fornire informazioni semantiche sui dati. Se tali informazioni semantiche vengono condivise da comunita' di persone si possono sviluppare delle utili applicazioni, molto leggere, che ne facciano uso. Gli esempi fatti riguardavano calendari o address book aggiornati in modo semplicissimo, annotazioni in pagine, etc...etc...

Un guru di Oracle, Jim Melton, ha confrontato il linguaggio SQL, ormai un classico dalla semantica molto chiara, con i nuovi linguaggi di XQuery ed SPARQL, entrambi usati per fare query, su XML e grafi RDF (Semantic Web). Le analogie sono moltissime, in molti casi semplici SQL sono analoghe, piu' chiare e molto efficienti, ma essendo il Semantic Web un grafo, le ricerche possono fare riferimento anche alle transizioni, per cui la cosa si complica e l'analogia cade. Alcune query SPARQL sono difficili da esprimere in SQL e poco efficienti. Insomma le cose sono formalmente equivalenti, ma il potere espressivo e la concisione sono a vantaggio di SPARQL per certi utilizzi. Quest'area probabilmente si espandera' sempre di piu' in futuro.

Ci sono state presentazioni su "Grid", super computer paralleli, ed il valore per il Web. Infine una sessione sul concetto di "backplane" ovvero del modello di condivisione e hiding dei dati implicato dai lavori in corso da parte del gruppo Compound Documents. La presenza degli Schema ha aperto la porta a mixare markup diversi in una singola pagina, purtroppo la semantica della pagina stessa non e' chiara e nemmeno le azioni che un browser deve poter supportare. Il tema e' di interesse, come abbiamo detto, soprattutto per il multimodale, ma gli approcci al momento sembrano ancora distanti.


Paolo Baggia, rappresentante di Loquendo nei W3C VBWG e MMIWG.