VoiceXML Italian User Group. Resoconto di Paolo Baggia dell' attivita' W3C VBWG (Gennaio 2003)

Resoconto attivita' del W3C Voice Browser Working Group
a cura di Paolo Baggia rappresentante di Loquendo
nei W3C Voice Browser e W3C Multimodal Interaction Working Groups

29 Gennaio 2003.

Offro una breve sintesi delle notizie importanti dal W3C Voice Browser WG emerse negli ultimi mesi.
Spero siano utili a capire in che direzione si sta evolvendo la specifica VoiceXML 2.0 e con essa tutte le altre specifiche ad esso associate (grammatiche, sintesi, controllo di chiamata, ecc.)

1) VoiceXML 2.0:

Ieri, 28 gennaio 2003 � stata pubblicata una nuova versione della specifica, che ha fatto un importante salto di qualita' al VoiceXML 2.0, ha raggiunto il livello di "Candidate Recommendation".
Cosa significa?
Per il W3C questa specifica � completa da un punto di vista funzionale; inoltre il gruppo di lavoro ha risolto tutte le richieste ricevute nel periodo di revisione pubblica ed infine ha prodotto un Implementation Report Plan, cio� un documento corredato da circa 500 tests volti ad agevolare la verifica dell'implementabilit� della specifica.
Il passo � molto importante, fondamentale, perch� � una premessa indispensabile per giungere ad una vera Recommendation W3C.
Quali sono i passi ulteriori?
La specifica a questo punto deve dimostrare l'implementabilit� per passare al livello successivo: "Proposed Recommendation". Questo avverr� quando diverse aziende al mondo presenteranno l'Implementation Report compilato e tutte le funzionalit� obbligatorie avranno almeno due implementazioni distinte. Superato questo stadio si aprono le porte alla Raccomandazione a tutti gli effetti ed i tempi sono esclusivamente di carattere tecnico. Quindi speriamo tutti di vedere raggiungere questo traguardo al VoiceXML 2.0 nel corso del 2003, magari gi� in autunno.
Spec: http://www.w3.org/TR/voicexml20

2) Uno sguardo alle altre specifiche

Speech Recognition Grammar Specification (SRGS)
� la prima a essere giunta a livello Candidate Recommendation gi� dal 24 giugno 2002. Alcune aziende hanno presentato un Impl. Report (Lucent, Microsoft e IBM), ma non sono ancora coperte tutte le funzionalita'. A breve dovrebbe arrivare un ulteriore IR ed aprire le porte al livello successivo.
Questa specifica definisce un formalismo XML per esprimere le grammatiche di riconoscimento che � gi� adottato da pi� aziende ed Application Server sul mercato. Oltre al formalismo XML la specifica prevede anche un formato testuale (ABNF) simile al ben noto formato JSGF (Java Speech Grammar Format). La speranza di tutti gli scrittori di grammatiche � che questo formalismo sostituisca quelli esistenti oggi, permetta di rendere standard tutte le principali caratteristiche di una grammatica di riconoscimento e favorisca l'interoperabilit� tra vendors tecnologici diversi.
Spec: http://www.w3.org/TR/speech-grammar

Speech Synthesis Markup Language (SSML)
� il formato XML per definire dei prompts da sintetizzare in un servizio vocale. Lo SSML permette in modo agevole di fornire delle informazioni sul testo da pronunciare, offre la possibilit� di modificare la voce e la lingua in cui il testo deve essere letto e di agire a livello fonetico, se necessario, o di modificare la lettura agendo a livello acustico/prosodico. Insomma un sintetizzatore pu� ottimizzare la lettura di un testo ed arricchire la resa acustica, utilizzando un formato non proprietario e ricco di caratteristiche interessanti.
Se volete provare alcune delle caratteristiche principali del formato SSML potete usare la Demo Online del TTS presente nel sito di Loquendo.
L'ultima versione di questa specifica � stata pubblicata il 2 dicembre 2002 a livello Last Call Working Draft ed lo stadio successivo (si spera a fine primavera) sar� di diventare una Candidate Recommendation. Il lavoro del gruppo attuale � di stesura dell'Implementation Report Plan.
Spec: http://www.w3.org/TR/speech-synthesis

Semantic Interpretation (SI)
Le grammatiche di riconoscimento sono composte da due parti: la sintassi, che esprime i vincoli sulla sequenza di parole da pronunciare, e la semantica, che permette a valle del riconoscimento di trasformare i risultati in modo applicativo.
Ad esempio riconoscere delle citt� e restituire la sigla della provincia, o pi� semplicemente pronunciare un numero ("due mila cinquecento trentasei euro e diciotto centesimi") e restituire il numero in cifre ("2536,18") pronto per essere utilizzato dall'applicazione VoiceXML.
Purtroppo la specifica SRGS definisce solamente la sintassi, per la parte semantica si deve attendere la terminazione di questa seconda specifica.
Le aziende produttrici di tecnologie vocali stanno lavorando attivamente su questo fronte e sar� pubblicato a breve (inizio marzo?) una nuova specifica della Semantic Interpretation che � gi� vicina al livello Last Call Working Draft. La caratteristica principale � di essere basata direttamente su ECMAScript (JavaScript) � quindi di facile utilizzo da parte degli sviluppatori.

Call Control XML (CCXML)
L'ultima specifica in attivo sviluppo da parte del Voice Browser WG � il CCXML. Un linguaggio per poter implementare in modo Web Based non solo la logica di servizio, ma anche alcune feature di Controllo di chiamata, quali i trasferimenti di chiamata, semplici conferenze telefoniche.
Questo settore � molto interessante perch� offrire uno standard interoperabile con il VoiceXML 2.0 e capace di adattare in modo semplice delle funzionalit� telefoniche in genere di difficile utilizzo.
� ancora prematuro sapere se questo standard sar� largamente accettato, ma certamente � una proposta interessante per un tassello ancora scoperto utile per il confezionamento di servizi vocali sempre pi� complessi e che sfruttano ad ogni livello le capacit� del mondo Web.
Spec: http://www.w3.org/TR/ccxml

3) Il futuro del VoiceXML

L'ultimo punto importante � che sta nascendo in questi giorni e Via, via coinvolger� le aziende che partecipano al Voice Browser WG il lavoro per definire un linguaggio per applicazioni vocali di terza generazione.
Vi invito ad iscrivervi alla mailing-list pubblica del W3C VB per poter essere informati tempestivamente degli sviluppi e, se volete, contribuire direttamente, suggerendo le cose che avreste voluto avere nel VoiceXML, ma che non sono ad oggi presenti.

"VoiceXML 2.0 Candidate Recommendation Press Release" del W3C:
("http://www.w3.org/2003/01/voicexml2-pressrelease.html.en)

Testimonials di supporto alla "VoiceXML 2.0 Candidate Recommendation Press Release" di cui sopra:
(http://www.w3.org/2003/01/voicexml2-testimonial)

Similar interests