martedì 16 febbraio 2016

Voce artificiale, umana ma non troppo


La tecnologia si sviluppa per risolvere un problema, per attenuarne un altro, o per migliorare la qualità della vita. Lo so, è una visione un po’ troppo idealizzata, dato che molte applicazioni per noi comuni mortali, se non derivano dalla ricerca spaziale, giungono direttamente da chi progetta strumenti di morte. Molte volte però ci interessa quanto essa si posso avvicinare al nostro modo di interagire con il mondo che ci circonda. Essere user-friendly, insomma, come dicono gli amanti del british. Dunque, una tecnologia che coinvolga i nostri sensi. Ad esempio l’udito.

La voce artificiale o sintetizzata fa ormai parte di una vasta gamma di oggetti alla nostra portata, non solo computer e smartphone, ma anche automobili e giocattoli, così come alcune famiglie di robot casalinghi. La sintesi vocale è creata in diversi modi, tra i quali le tecniche di più alta qualità si basano su una voce umana che viene utilizzata per generare un database di parole e piccole frasi del discorso parlato, con differenti toni ed espressioni. Un doppiatore può spendere da decine a centinaia di ore per registrare un database. Dipende però anche dalla categoria di prodotti ai quali è destinata: per gli sviluppatori di giocattoli digitali gli errori di pronuncia o simili non sono determinanti, poiché l'obiettivo è quello di intrattenere, anzi potrebbero essere un plus e fare ridere gli utenti.

Tuttavia, per le voci che hanno lo scopo di collaborare con gli esseri umani in situazioni pratiche e diventare un importante ausilio, le sfide sono più sottili. E’ questo il motivo per cui una nuova scienza del design sta emergendo per definire e realizzare quelli che vengono chiamati "agenti di conversazione", software che comprendono il linguaggio naturale e possono rispondere, mostrando una certa intelligenza, a comandi vocali umani. Ma al momento non è possibile creare una voce computerizzata indistinguibile da quella umana, se ci si riferisce a dialoghi che vanno oltre le  indicazioni stradali. Al di là della pronuncia corretta, è anche necessario individuare correttamente qualità tipicamente umane come l'inflessione e l'emozione nella voce. I linguisti chiamano questo tema "prosodia", la possibilità di aggiungere correttamente stress, intonazione o forme di sentimento nella lingua parlata.

All’IBM, all'interno del progetto Watson di intelligenza artificiale, una parte del team ha dedicato più di un anno alla creazione di un enorme database di pronunce corrette. Hanno riscontrato problemi con modi di dire, come carpe diem, oppure nomi propri tipo champagne brut , dove alcune regole della pronuncia saltavano facilmente. I ricercatori hanno intervistato 25 doppiatori, alla ricerca di un particolare suono umano da cui partire per costruire la loro voce artificiale migliore. Una volta individuati 2 o 3 timbri migliori, hanno provato ad aggiustarne le tonalità, giocando con la frequenze. Risultato: voce troppo artefatta o addirittura con dei toni entusiastici quasi infantili, dunque poco accettabile nelle comuni applicazioni. Così sono tornati a settare finemente una voce sintetizzata che fosse più orecchiabile possibile, perfezionando il relativo software. Ne è venuto fuori un timbro che ha chiaramente tratti tipici di una voce artificiale, ma possiede alcuni caratteri riscontrabili nella voce umana.

Ad oggi, dunque, creare un computer con un proprio timbro ed una sua personalità emotiva è ancora un traguardo lontano. Ma il numero di applicazioni che interagiscono con noi, mentre siamo alle prese con altre "faccende", sta crescendo in modo tale che le qualità di una voce piuttosto che un'altra potrebbero, in futuro, divenire determinanti nella scelta di un prodotto. E se la sfida si porrà in ambiti commerciali, gli sforzi tecnologici saranno senz'altro adeguati.





Nessun commento:

Posta un commento