VoiceXML Italian User Group

Home page  VoiceXML Links  VoiceXML Tutorial  News dai Working Groups Voice Browser e Multimodal Interaction del World Wide Web Consortium  Articoli  Accessibilita' del web mediante la voce

Libri Voice & Speech technologies  La nostra Newsletter  Il nostro Forum  Contatti  Gli eventi a cui lo User Group ha partecipato o partecipera'  Parlano (speriamo bene:-)) di noi...

La nuova rivoluzione della comunicazione? La tua voce.

LIBRI

In questa area, in costante aggiornamento, vogliamo proporvi una rassegna di libri e quanto prima di loro recensioni, relativi al VoiceXML.
Chiunque volesse proporne dei nuovi, magari di autori italiani o tradotti nella nostra lingua, puo' scriverci a info@vxmlitalia.com segnalandoceli (...ricordate, vxmlitalia.com vuole essere una community e quindi un qualcosa di realizzato dai VXMListi, passateci il termine, per i VXMListi, che crescera' grazie alla vostra partecipazione !)

ACCORDO TRA LO USER GROUP E SPRINGER

Sconto del 20% sul prezzo di copertina e spese di imballo/spedizione gratuite per i membri dello User Group, i partecipanti ai corsi tenuti da ns. membri e tutti i visitatori di questo sito, inviando una e-mail d'ordine a Stephanie Parker di Springer-Verlag London Ltd specificando che si vuole usufruire dello sconto offerto a "VoiceXML Italia".






 



 

 




 

Recensione di Davide Tosello (Loquendo) per il ns. User Group


L' autore, Ken Abbott, é un software architect di provata esperienza nel settore americano. Formato tecnicamente presso la Xerox (divisione XSoft), ha conseguito tre certificazioni delle più selettive nel panorama tecnologico mondiale: Sun Certified Enterprise Architect, IBM Certified Solutions Expert e Microsoft Certified Systems Engineer. Oggi offre la sua esperienza al servizio delle aziende start-up americane e in generale a quelle aziende che necessitano di consulenza tecnica di un certo valore. Nella lettura del libro vi accorgerete come recentemente le sue conoscenze si siano focalizzate sul mondo Java 2 Enterprise, diventato ormai il fondamento del Web lato server.

Il libro concentra l'attenzione sulla comprensione e sullo sviluppo di un'applicazione in linguaggio VoiceXML, senza perdersi nei meandri dei problemi legati al mondo delle applicazioni vocali: ad esempio le problematiche specifiche relative al Text To Speech (TTS) ed Automatic Speech Recognition (ASR ) non vengono trattate, se non ad alto livello per quanto interessa il VoiceXML. Il libro concentra invece l'attenzione sullo sviluppo e sull'architettura di generazione del contenuto VoiceXML per un servizio vocale.

Il CD-ROM allegato contiene software legato principalmente allo sviluppo di pagine VoiceXML, al testing delle stesse e soprattutto alla parte lato server del Web: essendo questo ormai basato per la maggior parte in Java, il CD contiene i package della SUN (JRun per fare girare lato Web server le Servlet o le JSP, Cocoon per l'engine di trasformazione XSL) necessari all'installazione dell'architettura per fare funzionare gli esempi riportati nel libro. Riguardo allo sviluppo del codice VoiceXML viene proposto il tool di editing XML noto come XMLSpy, in versione trial (30 gg). Riguardo al testing dei servizi vocali che andrete a sviluppare viene qui proposto l'SDK dell'IBM, ovviamente anch'esso sotto licenza trial (30 gg): questo SDK permette di debuggare i servizi VoiceXML a livello di funzionalitá del linguaggio, peró non aspettatevi di avere a disposizione anche la piattaforma vocale!


Il libro é organizzato in 13 capitoli, facilmente raggruppabili in tre macro parti.

La prima parte del libro mette a confronto due mondi apparentemente scorrelati: il Web, inteso come insieme di contenuti accessibili via browser, e la voce, lo strumento di comunicazione più naturale che l'uomo conosca ed utilizzi. Il VoiceXML viene quindi presentato come l'anello di congiunzione necessario a fare convergere, in prima battuta, questi due mondi e, successivamente, a farli progredire insieme.

La seconda parte, come molti altri libri presenti in questa sezione del sito VxmlItalia, non può che introdurre il linguaggio VoiceXML, a partire dalle fondamenta fino ad arrivare all'uso avanzato del linguaggio. Vengono inizialmente presentati gli elementi principali (form, field, subdialog, mixed initiative, gestione eventi, input/output) a cui spesso segue il codice VoiceXML di esempio ed una possibile interazione vocale con lo stesso: quest'ultima rende meglio l'idea del flusso vocale che dovrebbe seguire il servizio presentato, ma ricordatevi che provarlo sulla propria pelle (ossia implementarlo con gli strumenti offerti nel CD allegato) é sempre la prima cosa da fare! Segue una guida di buona programmazione delle Vocal User Interface (VUI) tramite VoiceXML; un servizio vocale deve essere progettato per soddisfare le richieste del cliente, quindi formulando le domande nel modo più semplice e naturale possibile (sfruttando sia le caratteristiche del linguaggio di markup di sintesi che quello di creazione delle grammatiche vocali), prevedendo un adeguato help all'utente nei casi in cui questo non riesca a farsi capire dal sistema (sfruttando sia la gestione degli eventi che il FIA, ossia l'algoritmo di esecuzione di un servizio VoiceXML).

La terza parte concentra l'attenzione sulla parte Web dell'applicazione vocale (che può presentare un punto di accesso vocale ma anche grafico, attraverso un comunissimo browser).Vengono quindi presentate diverse metodologie basate sulla tecnologia Java Sun per lo sviluppo del servizio vocale: in particolare si fa riferimento al server Web, alle Java Server Pages (con tanto di codice), al contenuto XML (prima ancora che VoiceXML) e alla sua trasformazione tramite XSL per rendere l'output del contenuto del servizio adatto al dispositivo che ne ha fatto richiesta. Vengono inoltre forniti i dettagli di installazione del framework necessario lato server.

E' inoltre presente un'appendice contenente una guida rapida alla terminologia ed al linguaggio VoiceXML: ottima nei casi di emergenza quotidiani di ogni sviluppatore di servizi vocali!


Conclusioni:

Il libro affronta le problematiche dello sviluppo di un'applicazione vocale in VoiceXML e le risolve in modo chiaro, offrendo al lettore una possibile soluzione, seppur molto semplice, ad ogni questione. Nel CD allegato vengono anche forniti gli strumenti sufficienti ad installare sul proprio PC un ambiente di sviluppo e di testing per i primi semplici servizi VoiceXML: fate attenzione alle licenze limitate (trial) dei programmi forniti!

A mio avviso il limite principale del libro, dichiarato fin dalla prima pagina dall'autore, é la descrizione di un linguaggio che non ha ancora raggiunto lo stato finale di W3C Recommendation, ed é pertanto soggetto a modifiche, seppur minime. D'altra parte le tecnologie vocali sono state riscoperte e rilanciate negli ultimi anni proprio grazie alla spinta innovativa portata da un linguaggio di sviluppo di servizi vocali finalmente standard come il VoiceXML, e se non lo si impara a conoscere e praticare fin dall'inizio, rischiando qualcosa, domani potrebbe essere troppo tardi. Le basi per sviluppare un servizio vocale, e anche qualcosa di più, vengono fornite. Ci aspettiamo quindi sicuramente da Ken Abbott la next release del libro, con approfondimenti magari sui linguaggi di markup relativi alla sintesi tramite Speech Synthesis Markup Language (SSML) ed alla scrittura delle grammatiche di riconoscimento vocali tramite Speech Recognition Grammar Specification (SRGS), entrambe in fase di chiusura specifica a breve lato W3C, ma soprattutto al futuro mondo del multi-modale di cui non si fa il minimo cenno in questa versione del libro ma a cui il W3C sta pensando da tempo e presto rilascerá documenti di architettura e linguaggio.









































         VoiceXML: Introduction to Developing Speech Applications

(Recensione tratta direttamente dal sito dell'autore, Jim A. Larson, Chairman del W3C Voice Browser Working Group ed "autoritas" nell'ambito dei linguaggi per lo sviluppo di applicazioni vocali , il quale oltre ad invitarci a proporre questa sua pubblicazione, ci ha anche inviato un "Conference Paper" da lui presentato al Automatic Speech Recognition and Understanding Workshop tenutosi dal 9 al 13 Dicembre, 2001 a Madonna di Campiglio).


Recensione di Paolo Baggia (Loquendo) per il ns. User Group:


Inizio questa recensione con una premessa sull'autore del libro, Dr. James (Jim) A. Larson.
Il curriculum è molto ricco: chairman del W3C Voice Browser Working Group (responsabile della standardizzazione del VoiceXML 2.0), ha lavorato per molti anni in Intel, è docente universitario per la Portland State University e per l'Oregon Graduate Institute dove tiene corsi sullo sviluppo di applicazioni vocali ed è autore di molte pubblicazioni su interfacce utente, infine cura una rubrica sugli standard per la rivista Speech Technology Magazine.

Accanto a questi dati che mettono in luce l'esperienza e l'importanza dell'autore devo aggiungere che ho occasione di lavorare con Jim Larson nel W3C Voice Browser e ne nutro una grandissima stima per la disponibilità e per la grande capacità nel gestire un gruppo a cui partecipano i membri di 35 aziende volte a disegnare le specifiche che offrono una solida base per agli sviluppatori di servizi vocali.
Il compito non è semplice ma Jim Larson è una presenza determinante.

Veniamo al contenuto del libro. Con la nascita del linguaggio VoiceXML (fine 1999, inizio 2000) il mondo delle applicazioni vocali è cresciuto in modo molto sostenuto, facendo pensare ad un boom di applicazioni, forse vero per il mercato americano, meno per quello europeo o italiano.
È da notare che le applicazioni vocali, prima dell'avvento del linguaggio VoiceXML, erano strettamente legate al mondo della telefonia e quindi a pochi e molto influenti costruttori.
Il VoiceXML è uno dei fattori in gioco, l'altro elemento determinante è un'estesa fiducia nelle capacità raggiunte dalle tecnologie vocali nei campi del riconoscimento e della sintesi da testo. Questa tecnologia è matura per realizzare delle applicazioni che permettano ad un numero sempre maggiore di 'utenti' di poter accedere delle informazioni a voce sia via telefono, sia via Personal Computer.
Questi fattori combinati hanno determinato una diffusione a macchia d'olio del VoiceXML e la crescita di un settore non ancora espanso al pieno delle sue potenzialità.

Una trattazione completa ed approfondita dei fattori che hanno determinato questa crescita ci porterebbe troppo lontano, ma ci da' l'idea che attorno al VoiceXML sia nato un grande interesse e di conseguenza il fiorire di pubblicazioni. Tramite una semplice ricerca via Web possiamo scoprire che sono disponibili circa una decina di pubblicazioni sull'argomento, purtroppo nella sola lingua inglese.

La prima domanda che ci poniamo allora è se e cosa differenzia il libro di Jim Larson dagli altri pubblicati. In questo ci aiuta già il titolo del libro: "VoiceXML. Introduzione allo sviluppo di applicazioni vocali", non si tratta di un mero manuale del linguaggio che elenca le sue caratteristiche, magari corredate da esempi, ma si propone di fornire una introduzione alla problematica dello sviluppo di applicazioni vocali.

Cosa differenzia un'applicazione Web "visuale", da un'applicazione vocale? Ci sono delle somiglianze, quali? Delle differenze? La risposta a queste domande è fondamentale per poter capire, valutare, implementare delle interfacce vocali, che i maggiori esperti del settore dicono essere un'arte.

La voce è di certo il mezzo di comunicazione più diffuso e più naturale tra le persone, ma il suo utilizzo richiede di capirne le specificità e aggirarne le limitazioni. Solo dei progressi ulteriori permetteranno di utilizzare la voce come molti film di fantascienza ci hanno abituato, uno per tutti HAL onnipresente protagonista di "2001: Odissea nello Spazio" di Stanley Kubrik ad esempio.

I primi capitoli del libro di Larson ci spiegano quali sono le caratteristiche di un'interfaccia vocale, come funziona un'applicazione vocale e introduce le tecnologie che ne permettono il funzionamento.

Il Capitolo 4 sintetizza i criteri e le attività da svolgere quando si decide di sviluppare un'applicazione vocale di grandi dimensioni. Il capitolo è molto sintetico, ma offre spunti su molti fronti che possono essere approfonditi separatamente.

Solo a questo punto, dopo 100 pagine si giunge a parlare direttamente del linguaggio VoiceXML offrendo una panoramica degli elementi essenziali e degli standard associati ad esempio Speech Recognition Grammar Specification (SRGS, vedi http://www.w3.org/TR/speech-grammar/) per definire le grammatiche di riconoscimento e Speech Synthesis Markup Language (SSML, vedi http://www.w3.org/TR/speech-synthesis) per definire i prompt da sintetizzare.

I successivi due capitoli offrono una zoomata sulle problematiche inerenti allo sviluppo dei prompt di un'applicazione vocale (soprattutto nel dare all'interfaccia un carattere distinguibile: Persona) e sulla definizione delle grammatiche per il riconoscimento della voce e dei DTMF.

Il libro prosegue con una carrellata dei tipi principali di interfacce vocali: guidata dal sistema, guidata dall'utente (detta anche "command and control") e infine con le interfacce ad iniziativa mista, dove l'utente ed il computer possono modificare il corso del dialogo.
Questo terzo tipo è il più avanzato in questo momento, anche il più complesso, ma che ha la speranza di offrire un ambiente più naturale per realizzare un'interazione uomo macchina flessibile. È necessario ammettere che i sistemi descritti in letteratura (scientifica) sull'argomento offrono delle caratteristiche non ancora incluse nel linguaggio VoiceXML 2.0, ma che possono esserlo in una versione futura del linguaggio.

In chiusura due temi importanti per lo sviluppo di qualsiasi applicazione SW, ma specializzati nell'ambito dello sviluppo di applicazioni vocali. Il testing e tuning di un'applicazione e gli strumenti di sviluppo/ri-uso possibili con il VoiceXML.

L'ultimo punto è sulla multimodalità, cioè la creazione di interfacce non solo telefoniche (voice-only), ma che sappiano integrare la voce con altre modalità quali la tastiera, il mouse o meglio il pen e lo stylus, già oggi presenti su PocketPC e iPAQ. Insomma una preview del prossimo libro che mi auguro Jim Larson possa scrivere tra breve.




 






















   



Voice Application Development
with VoiceXML
(Recensione Amazon / Recensione Barnes & Noble)

Rick Beasley, Veta Bonnewell, Mike Farley, Kenneth Farley, John O'Reilly (Contributor), Squire, Leon Squire (Contributor),
Agosto 2001

 

New !  Recensione di Davide Tosello (Loquendo) per il ns. User Group

Libro targato Lucent Technologies. I quattro autori sono infatti membri dello staff tecnico della Lucent in North Carolina, tutti con esperienza relativa allo sviluppo di servizi vocali VoiceXML fin dal 1999, che tutti noi dovremmo ricordare come “anno zero” del VoiceXML, ossia l’anno in cui il VoiceXML Forum ha rilasciato la versione 1.0 del VXML, in cui tutti noi dovremmo altresì ricordare Lucent tra i quattro membri fondatori... è allora un vero piacere effettuare la recensione di un libro scritto da persone che lavorano in una ditta di ricerca che ha collaborato alla stesura iniziale del linguaggio VoiceXML.

Il libro è stato pubblicato nel 2001 ed analizza tutte le tematiche inerenti un portale vocale rientrando a pieno titolo nella lista di libri che forniscono una sufficiente panoramica delle problematiche legate al mondo delle applicazioni vocali. Ovviamente la parte più corposa del libro è incentrata sul linguaggio VoiceXML 1.0/2.0 (reference + uso avanzato di Ecma Script, trasferimento di chiamata e recording di file audio), ma anche sul concetto di VoiceXML User Interface (VUI) e sul processo di sviluppo di un’applicazione vocale. Risulta scarsa la parte di approfondimento del VoiceXML 2.0, anche perchè il libro è uscito nel secondo semestre del 2001 mentre lo standard VoiceXML è Candidate Raccomendation solo da inizio 2003. Riassumo il contenuto del libro suddividendolo in cinque parti:

PRIMA PARTE: INTRODUZIONE
Il primo capitolo introduce ed analizza le diverse tecnologie emerse nell’ultimo decennio (internet, wireless, mondo del riconoscimento vocale) facendo considerazioni di carattere commerciale sulla diminuzione dei costi per chiamata con l’avvento dei sistemi vocali automatici.
Il secondo capitolo fornisce le informazioni minimali (15 pagine!) per chi desidera approfondire le tecnologie di Automatic Speech Recognition (ASR) e Text to Speech (TTS): ovviamente non è questo il libro adatto ad approfondire le tecniche di implementazione delle tecnologie vocali, il VoiceXML ne utilizza le interfacce messe a disposizione ma non specifica il modo di funzionamento delle stesse.
I due successivi capitoli concludono la parte introduttiva analizzando il linguaggio di programmazione VoiceXML, sia dal punto di vista architetturale che strutturale, fornendo le linee guida fondamentali per sviluppare codice scalabile e portabile, fattori indispensabili per un buon investimento in questo campo.

SECONDA PARTE: SVILUPPO
Cosa serve per sviluppare codice VoiceXML? Un editor! VI, emacs, Wordpad, …
Esistono però dei tools di sviluppo avanzati, in genere messi a disposizione dai produttori di piattaforme vocali e spesso web-based.
Desiderate imparare le basi del linguaggio VoiceXML? Andate ai capitoli 6-7-8!

TERZA PARTE: TOPICS
Questa parte introduce il lettore all’utilizzo delle feature avanzate del VoiceXML. Molto buoni i capitoli su come migliorare l’output vocale utilizzando il linguaggio di sintesi W3C Speech Synthesis Markup Language (SSML) e sulla gestione degli eventi (default handler, eventi di link, ...). Pecca invece quello sulla collezione dei risultati tramite grammatiche di riconoscimento vocale in quanto tratta ancora quelle nel formato Java Speech Grammar Format (JSGF): ad oggi il formato universalmente riconosciuto come standard è quello XML W3C Speech Recognition Grammar Specification (SRGS). Altra pecca riguarda le grammatiche DTMF: vengono ancora introdotte nell’elemento dedicato <dtmf>, che ormai risulta deprecato dalle ultime specifiche VoiceXML in quanto è stato inserito nell’elemento <grammar>.

QUARTA PARTE: VOICE SOLUTION DESIGN
Avete mai sentito parlare di VUI? E di ciclo di vita di un’applicazione (vocale)? Si tratta di studi molto raffinati sulle modalità di presentazione di un prodotto e sull’usabilità dell’applicativo da parte dei potenziali utilizzatori e clienti: questi aspetti sono importanti tanto per una presentazione grafica (come nel caso del web) quanto per un servizio vocale (come nel caso VoiceXML) ovviamente con problematiche e soluzioni ben diverse. Viene inoltre presentato un ‘case study’, un applicativo (completo di codice Vxml statico e dinamico JSP) che registra un messaggio e lo invia tramite e-mail all’utente desiderato.

QUINTA PARTE: CONCLUSIONI
Viene qui presentato un possibile scenario evolutivo per quanto riguarda le applicazioni vocali: evoluzione tecnologie di riconoscimento e sintesi vocali, nuovi standard di sviluppo aplicativo basati sul linguaggio VoiceXML ma pensati per dispositivi portatili e quindi per le applicazioni multimodali.

Riassumendo possiamo dire che questo libro fa per voi se non avete mai sentito parlare di VoiceXML ma siete interessati alle basi del linguaggio e soprattutto alla parte di creazione e gestione di un servizio vocale "funzionante ed estensibile" in futuro, magari aperto all’integrazione con le prossime/future tecnologie. Occorrerà invece attendere un rialleneamento dei contenuti, magari in una futura ristampa, per quanto riguarda la descrizione del linguaggio VoiceXML 2.0.

 

 

 

 







New !  Recensione di Paolo Baggia (Loquendo) per il ns. User Group

Il libro è interessante, mi sarei aspettato una introduzione approfondita al settore affascinante della sintesi vocale, invece gli autori sono stati aderenti al titolo nel descrivere i problemi legati all'uso della voce come output di device ed applicazioni. I tre esempi riportati riguardano: un indicatore di traffico, un'applicazione di voicemail ed una futuribile interfaccia per un videoregistratore.

L'idea che sta alla base è che l'evoluzione della tecnologia permette oggi delle nuove opportunità per complementare l'interfaccia visuale con voce o suoni, in particolare con voce generata automaticamente tramite un sistema di sintesi da testo (TTS: Text-To-Speech). Questo tipo di applicazioni è pertinente anche a device di uso domestico, per superare delle limitazioni quali il tele-controllo. Un altro esempio classico è la necessità di avere feedback vocali quando l'attenzione visiva non può essere distolta, quindi guidando un'automobile o eseguendo compiti complessi. Un'ulteriore campo di sviluppo è rendere accessibili strumenti ed applicazioni a persone diversamente abili.

Il testo è introduttivo e permettere ai lettori di avvicinarsi ad un settore specialistico, quello del 'design' di output vocali, senza addentrarsi in tecnicismi eccessivi. Un limite è però che semplificando molto si rischia di dare un'idea distorta delle applicazioni realizzabili oggi e far percepire questo settore non così vicino alla realtà. Infatti si parla di sintesi da testo basata su concatenazione di fonemi (le unità di base della pronuncia di una parola) e di sistemi basati su concatenazione di file acustici pre-registrati, che spesso rendono le frasi in modo buffo con pause innaturali. Quando invece la miglior tecnologia di sintesi da testo (TTS) è in grado oggi di fornire un ibrido di questi due modelli, ove le limitazioni del primo (poca naturalezza) e del secondo metodo (rigidità ed impossibilità a generare frasi e parole nuove) sono ridotti al minimo. Un TTS attuale è in grado di leggere qualsiasi testo, ma con una naturalezza e gradevolezza impensabili alcuni anni fa. Provate a giocare un po' con le demo online per capire, ad es.: http://actor.loquendo.com/actordemo/default.asp?language=it.

Se ci addentriamo nel libro, che è organizzato in otto agili capitoli, di cui il primo introduttivo al tema, scopriamo che il secondo trattalo stato dell'arte, introducendo il lettore ad alcuni concetti chiave, quali il ruolo delle pause e del ritmo in un prompt vocale, dell'intonazione, per poi passare a descrivere problemi studiati dalla psicolinguistica, di come funziona la memoria uditiva e le implicazioni sulla lunghezza delle frasi da utilizzare. Sembrano questioni astratte, ma gli esempi sono semplici e chiari e danno un'idea della cura che deve essere utilizzata per progettare i messaggi di un sistema vocale.

Il terzo capitolo affronta il tema del design dell'interazione, cioè di cosa deve essere comunicato, per poi passare nel capitolo successivo al design del dialogo cioè di come comunicare le informazioni prescelte. I punti salienti del terzo capitolo riguardano le aspettative e la rilevanza delle informazioni da comunicare e del controllo da lasciare all'ascoltatore per permettergli di recuperare la conversazione se è in difficoltà. Troppe informazioni, ripetizioni eccessive, possono appesantire un'applicazione vocale. Purtroppo l'esempio riportato è veramente datato perché basato su un'interfaccia vocale ad un file system DOS (!?!).

Nel quarto capitolo si sostiene l'importanza di usare feedbacks non vocali ove possibile, riportando i pregi ed i difetti dei suoni di richiamo rispetto all'uso di materiale verbale, cioè di parole. Procede poi nell'ambito dell'output vocale alle scelte che si devono affrontare e dei trabocchetti creati da ambiguità grafemiche (omofoni) e semantiche.

Il quinto capitolo è il più legato alla lingua inglese in quanto descrive l'intonazione, il ritmo e l'accento di tale lingua. Passa poi a descrivere i problemi legati a frasi interrogative, a come porre delle domande all'utente, siano esse Si/No (chiuse) o aperte. Se la prima parte è interessante, ma legata alla lingua inglese, il problema delle frasi interrogative è senz'altro molto difficile per tutte le lingue, italiano compreso. Una domanda mal formulata può impedire di fatto la continuazione in un'interazione vocale o perlomeno rendere la comunicazione molto più complessa e pesante.

Il sesto capitolo è interessante in quanto cerca di descrivere le problematiche relative a come leggere liste di elementi o, caso ancora più critico, dati in formato tabulare. Il punto chiave è non abusare della memoria dell'ascoltatore e fare buon uso della prosodia per dare un'idea della struttura di ciò che si sta dicendo.

Gli ultimi due capitoli sono dedicati all'analisi dei tre case study ed alle evoluzioni successive. Il primo dei case study è il Trafficmaster Freeway, uno strumento di piccole dimensioni che utilizzando informazioni GPS fornisce messaggi vocali sullo stato del traffico delle autostrade inglesi. Vengono descritte la modalità di funzionamento automatica, con annuncio delle sole variazioni di condizioni del traffico, e la modalità manuale, in cui la ricezione di informazioni è indicata da una spia luminosa e su richiesta si può ascoltare il messaggio ricevuto. Gli autori sottolineano il fatto che lo strumento presenta uno scarso utilizzo di suoni non verbali per comunicare informazioni e suggeriscono possibili miglioramenti alla prosodia per rendere i messaggi più incisivi.

Il secondo case study è lo SpeakEasy NT VoiceMail un prodotto di VoiceMail di cui vengono descritti i messaggi dei vari menù. In questo caso gli autori non rilevano grandi cose, se non piccoli miglioramenti delle frasi, ad esempio l'ordine delle opzioni dei menù, tale da facilitarne la memorizzazione e l'usabilità. La voce è pre-registrata per cui vengono rilevati dei salti e delle pause innaturali ed il cambio di voce dove viene pronunciato il nome del proprietario della casella vocale. Un buon TTS oggi sarebbe in grado di pronunciare queste frasi senza difficoltà.

L'ultimo esempio è il design di uno Speaking Video Recorder, cioè un video registratore (VCR) con feedback vocale. Lo scopo è di migliorare l'usabilità di un VCR per permettere l'accesso a persone con problemi di vista ed anche l'accesso remoto da telefono. L'interfaccia è molto semplice e basata su menù. I consigli degli autori si focalizzano più sulla pronuncia dei messaggi che non sulle problematiche di interazione vocale nel caso remoto.

Per le evoluzioni future (ottavo capitolo) vengono indicati l'uso della voce come canale di comunicazione alternativo ad altri e le applicazioni per utenti con necessità particolari: qui si ritorna sulle differenze tra un'interfaccia visuale e vocale e sull'estrema difficoltà nel trasporre un'interfaccia esistente in forma vocale (per esempio ad uso di applicazioni informatiche per una persona non vedente tramite uno ScreenReader). Infine le opportunità per l’uso della voce su terminali mobili, che sta per aprire le porte ad applicazioni multimodali, ove la voce, lo scritto e le interazioni con mouse o tasti si integrano in un'applicazione capace di gestirli simultaneamente.

Non perdetevi le appendici che riportano esempi di omofoni, parole con più di un significato, e parole con più di una pronuncia, molto interessanti per noi italiani che sulla lingua inglese ci muoviamo a tentoni, soprattutto sulla fonetica.

Concludo questa recensione invitando a leggere il libro per entrare nel mondo affascinante della comunicazione vocale tra uomo ed applicazioni vocali, con le sue sfide ed i punti dolenti. Forse essendo questo libro molto introduttivo potrà essere utile poi approfondire i temi di interesse su altri volumi più specialistici. Ad esempio "How to Build a Speech Recognition Application" di B. Balentine, D.P. Morgan e W. S. Meisel o gli altri libri sul VoiceXML presenti in questa pagina.

Un solo appunto agli autori: molti degli esempi potrebbero essere aggiornati prendendo in considerazione le applicazioni disponibili oggi. Difficilmente ci potrà capitare di interagire con un file-system DOS o di sentire letto l'elenco dei file del nostro computer. Esistono molte applicazioni reali che soffrono degli stessi problemi, ad esempio l'accesso ai titoli della borsa o il brokeraggio online.