VoiceXML Italian User Group

Home page  VoiceXML Links  VoiceXML Tutorial  News dai Working Groups Voice Browser e Multimodal Interaction del World Wide Web Consortium  Articoli  Accessibilita' del web mediante la voce

Libri Voice & Speech technologies  La nostra Newsletter  Il nostro Forum  Contatti  Gli eventi a cui lo User Group ha partecipato o partecipera'  Parlano (speriamo bene:-)) di noi...





Resoconto attivita' del W3C Voice Browser Working Group
a cura di Paolo Baggia rappresentante di Loquendo
nei W3C Voice Browser e W3C Multimodal Interaction Working Groups


29 Gennaio 2003.


Offro una breve sintesi delle notizie importanti dal W3C Voice Browser WG emerse negli ultimi mesi.
Spero siano utili a capire in che direzione si sta evolvendo la specifica VoiceXML 2.0 e con essa tutte le altre specifiche ad esso associate (grammatiche, sintesi, controllo di chiamata, ecc.)


1) VoiceXML 2.0:

Ieri, 28 gennaio 2003 è stata pubblicata una nuova versione della specifica, che ha fatto un importante salto di qualita' al VoiceXML 2.0, ha raggiunto il livello di "Candidate Recommendation".
Cosa significa?
Per il W3C questa specifica è completa da un punto di vista funzionale; inoltre il gruppo di lavoro ha risolto tutte le richieste ricevute nel periodo di revisione pubblica ed infine ha prodotto un Implementation Report Plan, cioè un documento corredato da circa 500 tests volti ad agevolare la verifica dell'implementabilità della specifica.
Il passo è molto importante, fondamentale, perché è una premessa indispensabile per giungere ad una vera Recommendation W3C.
Quali sono i passi ulteriori?
La specifica a questo punto deve dimostrare l'implementabilità per passare al livello successivo: "Proposed Recommendation". Questo avverrà quando diverse aziende al mondo presenteranno l'Implementation Report compilato e tutte le funzionalità obbligatorie avranno almeno due implementazioni distinte. Superato questo stadio si aprono le porte alla Raccomandazione a tutti gli effetti ed i tempi sono esclusivamente di carattere tecnico. Quindi speriamo tutti di vedere raggiungere questo traguardo al VoiceXML 2.0 nel corso del 2003, magari già in autunno.
Spec: http://www.w3.org/TR/voicexml20


2) Uno sguardo alle altre specifiche

  • Speech Recognition Grammar Specification (SRGS)
    È la prima a essere giunta a livello Candidate Recommendation già dal 24 giugno 2002. Alcune aziende hanno presentato un Impl. Report (Lucent, Microsoft e IBM), ma non sono ancora coperte tutte le funzionalita'. A breve dovrebbe arrivare un ulteriore IR ed aprire le porte al livello successivo.
    Questa specifica definisce un formalismo XML per esprimere le grammatiche di riconoscimento che è già adottato da più aziende ed Application Server sul mercato. Oltre al formalismo XML la specifica prevede anche un formato testuale (ABNF) simile al ben noto formato JSGF (Java Speech Grammar Format). La speranza di tutti gli scrittori di grammatiche è che questo formalismo sostituisca quelli esistenti oggi, permetta di rendere standard tutte le principali caratteristiche di una grammatica di riconoscimento e favorisca l'interoperabilità tra vendors tecnologici diversi.
    Spec: http://www.w3.org/TR/speech-grammar

  • Speech Synthesis Markup Language (SSML)
    È il formato XML per definire dei prompts da sintetizzare in un servizio vocale. Lo SSML permette in modo agevole di fornire delle informazioni sul testo da pronunciare, offre la possibilità di modificare la voce e la lingua in cui il testo deve essere letto e di agire a livello fonetico, se necessario, o di modificare la lettura agendo a livello acustico/prosodico. Insomma un sintetizzatore può ottimizzare la lettura di un testo ed arricchire la resa acustica, utilizzando un formato non proprietario e ricco di caratteristiche interessanti.
    Se volete provare alcune delle caratteristiche principali del formato SSML potete usare la Demo Online del TTS presente nel sito di Loquendo.
    L'ultima versione di questa specifica è stata pubblicata il 2 dicembre 2002 a livello Last Call Working Draft ed lo stadio successivo (si spera a fine primavera) sarà di diventare una Candidate Recommendation. Il lavoro del gruppo attuale è di stesura dell'Implementation Report Plan.
    Spec: http://www.w3.org/TR/speech-synthesis

  • Semantic Interpretation (SI)
    Le grammatiche di riconoscimento sono composte da due parti: la sintassi, che esprime i vincoli sulla sequenza di parole da pronunciare, e la semantica, che permette a valle del riconoscimento di trasformare i risultati in modo applicativo.
    Ad esempio riconoscere delle città e restituire la sigla della provincia, o più semplicemente pronunciare un numero ("due mila cinquecento trentasei euro e diciotto centesimi") e restituire il numero in cifre ("2536,18") pronto per essere utilizzato dall'applicazione VoiceXML.
    Purtroppo la specifica SRGS definisce solamente la sintassi, per la parte semantica si deve attendere la terminazione di questa seconda specifica.
    Le aziende produttrici di tecnologie vocali stanno lavorando attivamente su questo fronte e sarà pubblicato a breve (inizio marzo?) una nuova specifica della Semantic Interpretation che è già vicina al livello Last Call Working Draft. La caratteristica principale è di essere basata direttamente su ECMAScript (JavaScript) è quindi di facile utilizzo da parte degli sviluppatori.

  • Call Control XML (CCXML)
    L'ultima specifica in attivo sviluppo da parte del Voice Browser WG è il CCXML. Un linguaggio per poter implementare in modo Web Based non solo la logica di servizio, ma anche alcune feature di Controllo di chiamata, quali i trasferimenti di chiamata, semplici conferenze telefoniche.
    Questo settore è molto interessante perché offrire uno standard interoperabile con il VoiceXML 2.0 e capace di adattare in modo semplice delle funzionalità telefoniche in genere di difficile utilizzo.
    È ancora prematuro sapere se questo standard sarà largamente accettato, ma certamente è una proposta interessante per un tassello ancora scoperto utile per il confezionamento di servizi vocali sempre più complessi e che sfruttano ad ogni livello le capacità del mondo Web.
    Spec: http://www.w3.org/TR/ccxml


    3) Il futuro del VoiceXML

    L'ultimo punto importante è che sta nascendo in questi giorni e Via, via coinvolgerà le aziende che partecipano al Voice Browser WG il lavoro per definire un linguaggio per applicazioni vocali di terza generazione.
    Vi invito ad iscrivervi alla mailing-list pubblica del W3C VB per poter essere informati tempestivamente degli sviluppi e, se volete, contribuire direttamente, suggerendo le cose che avreste voluto avere nel VoiceXML, ma che non sono ad oggi presenti.


  • "VoiceXML 2.0 Candidate Recommendation Press Release" del W3C:
    ("http://www.w3.org/2003/01/voicexml2-pressrelease.html.en)

  • Testimonials di supporto alla "VoiceXML 2.0 Candidate Recommendation Press Release" di cui sopra:
    (http://www.w3.org/2003/01/voicexml2-testimonial)



  • Paolo Baggia, rappresentante di Loquendo nei W3C VBWG e MMIWG.