VoiceXML Italian User Group

Home page  VoiceXML Links  VoiceXML Tutorial  News dai Working Groups Voice Browser e Multimodal Interaction del World Wide Web Consortium  Articoli  Accessibilita' del web mediante la voce

Libri Voice & Speech technologies  La nostra Newsletter  Il nostro Forum  Contatti  Gli eventi a cui lo User Group ha partecipato o partecipera'  Parlano (speriamo bene:-)) di noi...

La nuova rivoluzione della comunicazione? La tua voce.



Resoconto incontri W3C VBWG, MMIWG e Technical Plenary
(Detroit 7-11 Giugno / Hawthorne - NY, 17-24 Settembre)
a cura di Paolo Baggia rappresentante di Loquendo
nei W3C Voice Browser e W3C Multimodal Interaction Working Groups


Nel corso dell'Estate 2004 si sono svolti due incontri W3C: il primo a Detroit (7-11 Giugno) ospitato da EDS e OnStar, il secondo a Hawthorne, NY (17-24 Settembre) ospitato da IBM. La notizia più rilevante del periodo e' stata il passaggio della specifica SSML 1.0 (Speech Synthesis Markup Language) a W3C Recommendation il 7 settembre 2004 (press release, testimonials tra i quali anche Fabrizio Gramuglio per il VoiceXML Italian User Group). Il framework associato al VoiceXML 2.0 sta giungendo a completamento, manca solamente la Semantic Interpretation che potrebbe diventare W3C Recommendation nel corso del 2005.


1) Incontri del Voice Browser Working Group (VBWG)

Il Voice Browser WG ha dedicato la gran parte del tempo di questi due incontri nel definire un'architettura per l'evoluzione del VoiceXML 2.0. Il nome di questa attività ancora in fase di definizione è talvolta V3 altre VoiceXML 3.0. Gli obiettivi sono molto ambiziosi:

  • Fornire primitive dialogo più potenti.
  • Fornire una modalità che possa agevolmente essere integrata in altri W3C markup, cioè dare la voce ad altri linguaggi W3C.

Nella nuova architettura potranno funzionare sia le applicazioni già scritte in VoiceXML 2.0/2.1, sia quelle in VoiceXML 3.0 che permetteranno nuove funzionalità, ma si sta considerando la possibilità di rendere il FIA (Form Interpretation Algorithm) modificabile da parte degli sviluppatori, cioè di offrire un livello di programmazione ulteriore, da utilizzare se e solo se l'applicazione vocale lo richieda.

Sui principi di base dell'architettura si è raggiunto un accordo di massima: essa sarà composta da layers (strati) denominati layer delle primitive, layer dei componenti e layer del container.
Le primitive (che implementeranno le funzionalità di riconoscimento, sintesi, DTMF, telefonia, ecc...) saranno formate da componenti (es. un <form> VoiceXML), i quali saranno contenuti in un documento container (es. VoiceXML 2.0, ma anche XHTML o WML).
Questa architettura dovrebbe permettere la massima interoperabilità permettendo di avere degli strati ben definiti su cui appoggiare gli strati superiori.
Il lavoro iniziato in questi incontri continuerà nelle audioconferenze e nei meeting successivi.

Per quanto riguarda le specifiche ci sono alcune novità da segnalare:

  • Speech Synthesis Markup Language (SSML 1.0): come gia’ detto e’ W3C Recommendation dal 7 settembre 2004.
  • Pronunciation Lexicon Specification (PLS): Il gruppo ha deciso di ri-attivare questa attività assegnano l'incarico a me (Paolo Baggia / Loquendo). Il primo passo concreto è stata la pubblicazione di un documento di requisiti aggiornato, che permetta di distinguere tra le attività a breve termine e quelle più complesse demandate ad una versione 2.0 di questo linguaggio.
  • Call Control (CCXML 1.0): vicino a pubblicare un secondo Last Call Working Draft a fine 2004.
  • Semantic Interpretation (SISR 1.0): sta completando i lavori per pubblicare un Last Call Working Draft entro novembre 2004.
  • VoiceXML 2.1: Il Last Call Working Draft è stato pubblicato il 28 luglio 2004. Stanno iniziando i lavori per creare un Implementation Report; a questi lavori sta partecipando anche Loquendo, oltre a Tellme, Vocalocity, ScanSoft e altre aziende del gruppo.
  • Say-as: Il gruppo sta lavorando per pubblicare un Nota W3C che definisca alcuni tipi standard di say-as omessi dalla specifica SSML 1.0, ma necessari ai fini dell'interoperabilità.

2) Incontri del Multimodal Interaction Working Group (MMIWG)

Gli incontri hanno permesso di analizzare come l'architettura V3 si integra in un ambito di applicazioni multimodali e la sensazione è che la direzione sia funzionale al multimodale.

Inoltre si sono rivisti i requisiti e alcuni degli Use Cases definiti in passato per aggiornarli alla luce dei progressi fatti verso un'architettura per applicazioni multimodali. Si è programmata la pubblicazione di un documento architetturale a inizio 2005.

Alcuni approcci innovativi di authoring di applicazioni multimodali sono stati analizzati tra cui uno basato su scripting e uno basato su estensioni di CSS (Cascading Style Sheets).

Per quanto riguarda le specifiche in corso di definizione:

  • EMMA 1.0: i lavori procedono verso il Last Call Working Draft.
  • InkML 1.0: linguaggio per definire in XML digital Ink, procedono i lavori ed è stato pubblicato come Working Draft il 28 settembre 2004.
  • System & Environment: i lavori sono legati al gruppo W3C Device Independence, perché volti a definire dei parametri di ambiente dinamici, quali ad esempio un GPS o altre informazioni sull'ambiente. Il Last Call Working Draft è previsto a novembre 2004.
  • Composite Input: i lavori procedono per pubblicare un W3C note a fine anno ed alcuni input relativa a poter comporre dati in EMMA di modalità diverse (es. voce e click del mouse), sono stati accolti dalla specifica EMMA.

Nel corso dei meeting sono state presentate delle dimostrazioni multimodali da parte di IBM, V-Enable, Canon e EDS.


Paolo Baggia, rappresentante di Loquendo nei W3C VBWG e MMIWG.