La Inteligencia Artificial (IA) se está usando para crear de todo, desde imágenes hasta texto y proteínas artificiales, y ahora, la voz.
Investigadores de Microsoft publicaron un artículo (Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers) sobre una nueva IA llamada VALL-E que puede simular con precisión la voz de cualquier persona en función de una muestra de solo tres segundos. VALL-E no es el primer simulador de voz que se crea, pero está construido de una manera diferente a sus predecesores y podría conllevar un mayor riesgo de posible uso indebido.
La mayoría de los modelos de texto a voz existentes utilizan formas de onda (representaciones gráficas de ondas de sonido a medida que se mueven a través de un medio a lo largo del tiempo) para crear voces falsas, modificando características como el tono o el tono para aproximarse a una voz determinada. Sin embargo, VALL-E toma una muestra de la voz de alguien y la divide en componentes llamados tokens, luego usa esos tokens para crear nuevos sonidos basados en las “reglas” que ya aprendió sobre esta voz. Si una voz es particularmente profunda, o un hablante pronuncia sus A de forma nasal, o son más monótonos que el promedio, todos estos son rasgos que la IA detectaría y podría replicar.
El modelo se basa en una tecnología llamada EnCodec de Meta, que se acaba de lanzar esta parte de octubre. La herramienta utiliza un sistema de tres partes para comprimir audio a 10 veces más pequeño que los MP3 sin pérdida de calidad; sus creadores pretendían que uno de sus usos fuera mejorar la calidad de la voz y la música en las llamadas realizadas a través de conexiones de bajo ancho de banda.
Para entrenar a VALL-E, sus creadores utilizaron una biblioteca de audio llamada LibriLight, cuyas 60.000 horas de habla en inglés se componen principalmente de narración de audiolibros. El modelo produce sus mejores resultados cuando la voz que se sintetiza es similar a una de las voces de la biblioteca de entrenamiento.
Pero no es sólo la voz lo que se crea: VALL-E también simula el entorno de audio de la muestra de tres segundos. Un clip grabado por teléfono sonaría diferente a uno hecho en persona, y si camina o conduce mientras habla, se tiene en cuenta la acústica única de esos escenarios.
Algunas de las muestras suenan bastante realistas, mientras que otras son obviamente generadas por computadora. Pero hay diferencias notables entre las voces; se puede decir que se basan en personas que tienen diferentes estilos de habla, tonos y patrones de entonación.
El equipo que creó VALL-E sabe que podría ser utilizado muy fácilmente por malos actores; desde la falsificación de fragmentos de audio de políticos o celebridades hasta el uso de voces familiares para solicitar dinero o información por teléfono, existen innumerables formas de aprovechar la tecnología. Se han abstenido sabiamente de poner el código de VALL-E a disposición del público e incluyeron una declaración de ética al final de su artículo (que no hará mucho para disuadir a cualquiera que quiera usar la IA con fines nefastos).
Es probable que solo sea cuestión de tiempo antes de que surjan herramientas similares y caigan en las manos equivocadas. Los investigadores sugieren que los riesgos que presentarán modelos como VALL-E podrían mitigarse mediante la construcción de modelos de detección para medir si los clips de audio son reales o sintetizados. Si necesitamos IA para protegernos de la IA, ¿cómo saber si estas tecnologías están teniendo un impacto positivo neto? El tiempo dirá.
singularityhub.com – Microsoft’s New AI Can Clone Your Voice in Just 3 Seconds