VoiceXML Italian User Group. Intervista di Paolo Baggia alla Dr. Deborah Dahl

Intervista di Paolo Baggia (Loquendo) alla Dr. Deborah Dahl (Luglio 2003).
(Click here for the original interview in English)

Considerato il crescente interesse per le applicazioni di tipo multimodale, ho pensato di intervistare la dr. Deborah Dahl, chairman del Multimodal Interaction Working Group del W3C.
Spero sia di stimolo per iniziare a pensare alle nuove sfide che la voce dovrà affrontare tra breve.

Paolo Baggia, rappresentante Loquendo al W3C MMIWG e VBWG

[Paolo Baggia] Perché sta crescendo un'attenzione verso le applicazioni multimodali?

[Dr. D. Dahl] Benché da molti anni la multimodalità sia oggetto di interesse accademico, ora sta crescendo un interesse commerciale, anche perché stanno prendendo piede tre aspetti fondamentali dell'infrastruttura di supporto alle applicazioni multimodali. Dal momento che le applicazioni multimodali dipendono dal riconoscimento della voce, un primo fattore è il miglioramento dell'accuratezza e della robustezza del riconoscimento vocale avvenuto negli ultimi anni, questo primo aspetto rende la realizzazione di applicazioni vocali molto più realistico. Un secondo aspetto è lo sviluppo esplosivo della telefonia mobile, malgrado i cellulari stiano diventando sempre più potenti, allo stesso tempo si stanno rimpicciolendo sempre più, il che rende la digitazione su tastiere o keypad lenta e scomoda. La voce in questo contesto è molto naturale. Infine, di recente, la voce legata all'infrastruttura Web e la presenza di ambienti di sviluppo potenti, stanno rendendo lo sviluppo di applicazioni più semplice ed efficiente.

[P.B.] Quali sono le proposte disponibili oggi?

[Dr. D. Dahl] Negli anni passati le applicazioni multimodali erano primariamente basate su tecnologie proprietarie, anche se API speech aperte, quali SAPI e JSAPI hanno significativamente aiutato a ridurre la complessità dello sviluppo di applicazioni vocali. Ciò nonostante, l'integrazione di voce e Web da un lato e gli standard e tool disponibili dall'altro, stanno ulteriormente riducendo la complessità dello sviluppo di applicazioni. Attualmente sono disponibili due importanti proposte, entrambe aperte e web-based. La prima, effettuata da IBM e Opera Software, è rappresentata dall'integrazione di XHTML con il VoiceXML (detto X+V); la seconda, redatta dal SALT Forum, si è concretizzata nella stesura di una specifica multimodale, il linguaggio SALT 1.0. Molti dei principi di base di questi due approcci sono simili, ma la programmazione SALT è in genere a più basso livello rispetto alla programmazione X+V. Il Multimodal Interaction Working Group del World Wide Web Consortium (W3C), che io presiedo, sta lavorando nel definire uno standard unico per l'interazione multimodale in ambiente web. Sia X+V che SALT sono state offerte al W3C come contributi royalty-free a questa attività di standardizzazione.
Altri standard emergenti di W3C quali SRGS e SSML, per il riconoscimento vocale e per la sintesi da testo rispettivamente, sono applicabili tanto al multimodale quanto alle applicazioni vocali.

[P.B.] In quale settore le applicazioni multimodali possono emergere?

[Dr. D. Dahl] Esistono già oggi delle applicazioni multimodali specializzate, quali i sistemi di apprendimento di lingue straniere o gli strumenti per i disabili, ma esse raggiungono relativamente pochi utilizzatori. Applicazioni multimodali per apparecchi mobili sono il settore più promettente per rendere la multimodalità veramente diffusa (mainstream). Molte aziende, specialmente gli operatori telefonici, stanno lavorando sullo sviluppo di applicazioni multimodali e la realizzazione di field trial, ma non sono ancora pronti a mostrare pubblicamente i risultati raggiunti. In ogni caso, credo che entro il quarto trimestre di quest'anno sia molto probabile che assisteremo ad annunci pubblici di sviluppi e test in campo.

[P.B.] Può fare alcuni esempi di applicazioni multimodali già in uso oggi?

[Dr. D. Dahl] Come ho detto attualmente nel mercato di consumo non ci sono molti esemplari di applicazioni multimodali in esercizio. LogicTree, ad esempio, ha installato un sistema che fornisce informazioni sui trasporti pubblici. [N.d.T. Sistema collaborativi tra operatore ed utente, il dialogo utente è in voce, mentre l'operatore può interagire anche con una GUI.] Ci sono però varie applicazioni in prova, per esempio, valutazioni di applicazioni multimodali sono state annunciate da aziende quali Kirusa specializzata in portali vocali multimodali. Altre aree interessanti, ancora in fase esplorativa non commerciale, sono un'interfaccia multimodale per automobile realizzata da SpeechWorks per la Ford modello U Concept SUV. Questa interfaccia permette di pilotare il navigatore o di modificare il riscaldamento ed il condizionamento dell'auto utilizzando la voce o tramite touch-screen per i passeggeri. Applicazioni multimodali sono inoltre utilizzate per la riabilitazione all'uso della parola per pazienti che hanno subito un ictus.

[P.B.] Come potrà influire lo sviluppo di applicazioni multimodali sul mercato dei servizi solo vocali?

[Dr. D. Dahl] Le applicazioni multimodali espanderanno ulteriormente il mercato della voce permettendo lo sviluppo di applicazioni che non potevano essere realizzate con un interfaccia solo vocale – per esempio, quando la visualizzazione di un'immagine o di un video siano una parte integrante dell'applicazione stessa – oppure di domini in cui l'interazione solo in voce sarebbe risultata essere troppo lenta, come la selezione da una lista di opzioni molto lunga. Non credo sia probabile che il mercato delle applicazioni in sola voce possa venire eroso, perché la prevalenza di apparecchi telefonici senza display implica che le applicazioni in sola voce continuino ad essere di grande interesse per gli utenti.

[P.B.] Ritiene che ci possano essere differenza tra il mercato USA e UE su queste tecnologie?

[Dr. D. Dahl] Gli utenti europei sono universalmente noti per un più sofisticato uso del terminale mobile che non le persone in USA, per cui ritengo che le applicazioni multimodali possano diffondersi in Europa prima che negli USA. In ogni caso, non mi pare che le applicazioni possano essere troppo diverse tra questi due mercati.

[P.B.] Quali sono delle applicazioni più adatte alla multimodalità?

[Dr. D. Dahl] Non penso ci sia nessuno in grado di predire quali saranno le applicazioni multimodali più efficaci. Come minimo, la voce deve essere percepita come un valore aggiunto importante per l'applicazione stessa – non penso sia efficace aggiungere la voce in un applicazione, solo perché è una tecnologia innovativa (cool). La voce aggiunge inequivocabilmente valore alle applicazioni che funzionano su un device piccolo con una tastiera scomoda oppure su applicazioni usate quando l'utente ha le mani e gli occhi impegnati. La maggior parte delle dimostrazioni multimodali che ho visto sono volte al riempimento di form a voce. Invece penso che la navigazione vocale possa essere un ambito persino più interessante del riempimento di form, infatti percorrere molti livelli di menù in una interfaccia GUI è noioso su un piccolo device. Nel momento in cui gli sviluppatori diventano più confidenti delle possibilità offerte dalla multimodalità e con l'affermazione di tool di sviluppo per il multimodale, penso che inizieremo a vedere delle applicazioni più innovative. Vorrei suggerire a tutte le persone che nutrono un interesse in quest'area, di provare a sviluppare delle applicazioni multimodali su una delle piattaforme disponibili come X+V di IBM o SALT di Microsoft. Benché si sia spesso dichiarato che le applicazioni multimodali del futuro saranno principalmente create da sviluppatori web, ritengo che gli sviluppatori con esperienza nel campo delle applicazioni vocali tradizionali possano essere in grado di sviluppare delle interfacce migliori rispetto agli sviluppatori di GUI web, per la loro maggiore familiarità con i problemi tipici della voce.

Other interesting websites