L’intelligenza artificiale fa un altro passo in avanti grazie a Vall-E, la nuova creatura Microsoft in grado di riprodurre la voce umana, con tanto di cadenza e intonazione. La cosa più strabiliante è che per farlo avrebbe bisogno solo di tre secondi di audio parlato.
Per istruirlo c’è stato bisogno di oltre 60 mila ore di registrazioni, in inglese, estrapolate da circa 7 mila fonti. Sulla pagina https://valle-demo.github.io è già possibile ascoltare alcuni vocali di Vall-E per rendersi conto del livello di accuratezza già raggiunto. Una tecnologia che supera di gran lunga gli odierni ‘text to speech’, sistemi di sintesi vocale che riproducono un testo scritto.
Uno strumento dalle potenzialità incredibili, ma che proprio per questo ha già scatenato alcuni interrogativi sulla possibilità che possa essere utilizzato con scopi diversi, come ad esempio la creazione dei deep fake.
Fonte www.dire.it