Secciones
Empresa tecnológica: Voces de fallecidos de Alexa son solo el comienzo de la clonación de voz
Tecnología

Amazon: Voces de fallecidos de Alexa son solo el comienzo de la clonación de voz

La evolución de la tecnología de texto a voz de Amazon nos está acercando a voces que suenan convincentemente humanas.

por ErickPeraza

Empresa tecnológica: Voces de fallecidos de Alexa son solo el comienzo de la clonación de voz

Empresa tecnológica: Voces de fallecidos de Alexa son solo el comienzo de la clonación de voz

A principios de este verano, en la conferencia re:MARS, un evento organizado por Amazon que se centra en el aprendizaje automático, la automatización, la robótica y el espacio, Rohit Prasad, científico jefe y vicepresidente de Alexa I.A., tuvo como objetivo sorprender a la audiencia con un truco de salón paranormal: hablar con los muertos.

“Mientras que la IA no puede eliminar el dolor de la pérdida, definitivamente puede hacer que sus recuerdos perduren”, dijo, antes de mostrar un video corto que comienza con un niño adorable que le pregunta a Alexa: “¿Puede la abuela terminar de leerme El mago de Oz?”.

La voz de la mujer que lee algunas oraciones del libro suena lo suficientemente abuela. Pero sin conocer a la abuela, era imposible evaluar el parecido. Y todo el asunto les pareció a muchos observadores más que un poco espeluznante: Ars Technica llamó a la demostración "mórbida".

Pero la revelación de Prasad de cómo se realizó el "truco" fue realmente asombrosa: los científicos de Amazon pudieron invocar la voz de la abuela con solo una muestra de audio de un minuto. Y pueden hacer lo mismo fácilmente con casi cualquier voz, una perspectiva que puede encontrar emocionante, aterradora o una combinación de ambas.

El miedo a las voces "falsas" capaces de engañar a los humanos o a la tecnología de reconocimiento de voz no es infundado: en un caso de 2020, los ladrones usaron una voz generada artificialmente para convencer al gerente de un banco de Hong Kong de que liberara $400,000 en fondos antes de que se descubriera la artimaña.

Al mismo tiempo, a medida que las interacciones de voz con la tecnología se vuelven más comunes, las marcas están ansiosas por ser representadas por voces únicas.

Y los consumidores parecen querer tecnología que suene más humana (aunque un asistente de voz de Google que imitaba los "ums", "mm-hmms" y otros tics del habla humana fue criticado por ser demasiado realista).

Amazon: Voces de fallecidos de Alexa son solo el comienzo de la clonación de voz
El gigante tecnológico avanza en la clonación de voz para Alexa.

Eso ha estado impulsando una ola de innovación e inversión en tecnología de texto a voz (TTS) impulsada por IA. Una búsqueda en Google Scholar muestra más de 20,000 artículos de investigación sobre la síntesis de texto a voz publicados desde 2021.

A nivel mundial, se prevé que el mercado de texto a voz alcance los $7 mil millones en 2028, frente a los $2,300 millones de 2020, según Investigaciones emergentes.

Hoy en día, el uso más extendido de TTS es en asistentes digitales y chatbots.

Pero las aplicaciones emergentes de identidad de voz en juegos, medios y comunicación personal son fáciles de imaginar: voces personalizadas para sus personajes virtuales, mensajes de texto que se leen en su voz, voces en off de actores ausentes (o fallecidos). El metaverso también está cambiando la forma en que interactuamos con la tecnología.

“Va a haber muchas más de estas experiencias virtualizadas, donde la interacción es cada vez menos un teclado y más sobre el habla”, dice Frank Chang, socio fundador del fondo de riesgo centrado en IA Flying Fish en Seattle.

“Todos piensan que el reconocimiento de voz es lo mejor, pero en última instancia, si le estás hablando a algo, ¿no quieres que te responda? En la medida en que eso se pueda personalizar, con tu voz o la voz de alguien que quieras escuchar, mucho mejor”.

Brindar accesibilidad a las personas con problemas de visión, función motora limitada y otros problemas cognitivos es otro factor que impulsa el desarrollo de la tecnología de voz, especialmente para el aprendizaje electrónico.

Ya sea que le guste o no la idea de "Grandma Alexa", la demostración destaca la rapidez con la que A.I. ha impactado la conversión de texto a voz y sugiere que las voces falsas humanas convincentes podrían estar mucho más cerca de lo que pensamos.

Se cree que la Alexa original, lanzada con el dispositivo Echo en noviembre de 2014, se basó en la voz de Nina Rolle, una artista de doblaje con sede en Boulder (algo que ni Amazon ni Rolle confirmaron nunca), y se basó en la tecnología desarrollada por texto polaco a la empresa de voz Ivona, adquirida por Amazon en 2013.

Pero el estilo conversacional de la primera Alexa dejaba mucho que desear. En 2017, VentureBeat escribió: "Alexa es bastante inteligente, pero no importa de qué hable el asistente impulsado por IA, no hay forma de evitar su voz relativamente plana y monótona".

Las primeras versiones de Alexa usaban una versión de conversión de texto a voz "concatenativa", que funciona al compilar una gran biblioteca de fragmentos de voz grabados de un solo hablante, que se pueden recombinar para producir palabras y sonidos completos.

Imagine una nota de rescate, donde las letras se cortan y se pegan para formar nuevas oraciones. Este enfoque genera audio inteligible con un timbre de sonido auténtico, pero requiere muchas horas de datos de voz grabados y muchos ajustes, y su dependencia de una biblioteca de sonidos grabados dificulta la modificación de las voces.

Otra técnica, conocida como TTS paramétrico, no utiliza voz grabada, sino que comienza con modelos estadísticos de sonidos de voz individuales, que pueden ensamblarse en una secuencia de palabras y oraciones y procesarse a través de un sintetizador de voz llamado vocoder. (Las voces de texto a voz "estándar" de Google usan una variación de esta tecnología).

Ofrece más control sobre la salida del habla, pero tiene un sonido robótico amortiguado. No querrás que te lea un cuento antes de dormir.

Amazon y otros gigantes de la tecnología avanzan en la conversión de texto a voz

En un esfuerzo por crear voces nuevas, más expresivas y que suenen más naturales, Amazon, Google, Microsoft, Baidu y otros actores importantes en la conversión de texto a voz han adoptado en los últimos años alguna forma de "TTS neuronal".

Los sistemas NTTS utilizan redes neuronales de aprendizaje profundo entrenadas en el habla humana para modelar formas de onda de audio desde cero, convirtiendo dinámicamente cualquier entrada de texto en un habla fluida.

Los sistemas neuronales son capaces de aprender no solo la pronunciación, sino también patrones de ritmo, acentuación y entonación que los lingüistas llaman “prosodia”. Y pueden aprender nuevos estilos de habla o cambiar las "identidades" de los hablantes con relativa facilidad.

La API Text-to-Speech de Google Cloud actualmente ofrece a los desarrolladores más de 100 voces neuronales en idiomas que van desde el árabe hasta el vietnamita (más dialectos regionales) junto con "voces estándar" que usan TTS paramétrico más antiguo.

Azure de Microsoft brinda a los desarrolladores acceso a más de 330 voces neuronales en más de 110 idiomas y dialectos, con una variedad de estilos de habla, que incluyen noticieros, servicio al cliente, gritos, susurros, enojo, entusiasmo, alegría, tristeza y terror.

Las voces neuronales de Azure también han sido adoptadas por empresas como ATT, Duolingo y Progressive. (En marzo, Microsoft completó la adquisición de Nuance, líder en IA conversacional y socio en la creación de Siri de Apple, cuyo servicio Vocalizer ofrece más de 120 voces de chatbot neuronal en más de 50 idiomas).

La API de texto a voz Polly de Amazon admite aproximadamente tres docenas de voces neuronales en 20 idiomas y dialectos, en estilos de habla conversacional y de "presentador de noticias".

La tecnología subyacente a la demostración de voz de Grandma fue desarrollada por científicos en el laboratorio de conversión de texto a voz de Amazon en Gdansk, Polonia.

En un artículo de investigación, los desarrolladores describen su enfoque novedoso para clonar una nueva voz a partir de una muestra muy limitada: un problema de "pocas tomas", en la jerga del aprendizaje automático.

Esencialmente, dividieron la tarea en dos partes. Primero, el sistema convierte el texto en voz "genérica", usando un modelo que ha sido entrenado en 10 horas de voz de otro hablante.

Luego, un "filtro de voz", entrenado en una muestra de un minuto de la voz del hablante de destino, imparte una nueva identidad de hablante, modificando las características de la voz genérica para que suene como el hablante de destino. Se necesitan muy pocas muestras de entrenamiento para construir nuevas voces.

En lugar de tener que construir un nuevo modelo de texto a voz para cada nueva voz, este enfoque modular convierte el proceso de creación de una nueva identidad de locutor en la tarea computacionalmente más fácil de cambiar una voz a otra.

En medidas objetivas y subjetivas, la calidad del habla sintética generada de esta manera fue comparable al habla de modelos entrenados con 30 veces más datos. Dicho esto, no puede imitar completamente el estilo de hablar de una persona específica.

En un correo electrónico a Fast Company, los investigadores de Alexa explican que el filtro de voz solo cambia el timbre de la voz que habla, su resonancia básica. La prosodia de la voz, sus ritmos y entonación, provienen del modelo de voz genérico.

Por lo tanto, sonaría como la lectura de voz de la abuela, pero sin la forma distintiva en que alargaría ciertas palabras o tomaría una larga pausa entre otras.

Amazon no dirá cuándo estarán disponibles las nuevas capacidades de clonación de voz para los desarrolladores y el público.

En un correo electrónico, un vocero escribe: “Personalizar la voz de Alexa es una característica muy deseada por nuestros clientes, quienes podrían usar esta tecnología para crear muchas experiencias maravillosas.

Estamos trabajando para mejorar la ciencia fundamental que demostramos en re:MARS y estamos explorando casos de uso que encantarán a nuestros clientes, con las medidas de seguridad necesarias para evitar cualquier posible uso indebido”.

Uno puede imaginar ofrecer la capacidad de personalizar algo como Reading Sidekick, una función de Alexa que permite que los niños se turnen para leer con Alexa, con la voz de un ser querido.

Y es fácil ver cómo la demostración de "La voz de la abuela" podría presagiar un elenco ampliado de voces de celebridades más adaptables para asistentes virtuales.

Las voces de celebridades actuales de Alexa (Shaquille O'Neal, Melissa McCarthy y Samuel L. Jackson) requirieron alrededor de 60 horas de grabaciones de estudio para producirlas, y están algo limitadas en lo que pueden hacer, respondiendo preguntas sobre el clima, contando chistes y historias y respondiendo a ciertas preguntas, pero por defecto a la voz estándar de Alexa para solicitudes fuera de la zona de confort del sistema.

Los "cameos de voz de celebridades" del Asistente de Google de John Legend e Issa Rae, presentados en 2018 y 2019, pero no compatibles actualmente, combinaron de manera similar audio pregrabado con algunas respuestas improvisadas sintetizadas con la tecnología WaveNet.

La capacidad de desarrollar voces de celebridades más sólidas que puedan leer cualquier entrada de texto después de una breve sesión de grabación podría cambiar las reglas del juego, e incluso podría ayudar a impulsar las ventas estancadas de altavoces inteligentes.

(Según la firma de investigación Omdia, los envíos de parlantes inteligentes de EE. UU. disminuyeron casi un 30 % el año pasado en relación con 2020, incluida una caída de casi el 51% en los envíos de parlantes inteligentes de Amazon Alexa).

A medida que las grandes empresas de tecnología continúan invirtiendo en texto a voz, una cosa es segura: será cada vez más difícil saber si la voz que escuchas es de un ser humano o de un algoritmo hecho por humanos.

Te puede interesar: Historia de Jeff Bezos de Amazon

En La Verdad Noticias tenemos las noticias más recientes de Amazon. Síguenos en Google News, Facebook y Twitter para mantenerte informado.

Temas

Comentarios