Un nuevo modelo de inteligencia artificial de texto a voz es Voice Engine. Según OpenAI, un lanzamiento generalizado sería demasiado arriesgado.

Desde el juguete Speak & Spell de 1978, que sorprendió a la gente con su capacidad de última generación para leer palabras en voz alta utilizando una voz electrónica, la síntesis de voz ha avanzado mucho. El software ahora puede crear voces realistas utilizando pequeñas muestras de audio para imitar voces existentes.

Esta semana, OpenAI anunció Voice Engine, un modelo de AI de texto a voz que permite la creación de voces sintéticas a partir de un segmento de audio grabado de 15 segundos. En su sitio web, ha proporcionado muestras de audio del motor de voz en funcionamiento.

Una vez que se clona una voz, un usuario puede introducir texto en el motor de voz y la IA creará una voz. Sin embargo, OpenAI no está preparado para difundir ampliamente su tecnología. A principios de este mes, la compañía tenía la intención de lanzar un programa piloto para los desarrolladores que querían suscribirse a la API de Voice Engine. Sin embargo, la empresa decidió limitar sus aspiraciones por el momento después de considerar más las consecuencias éticas.

La empresa escribe: "Estamos optando por predecir pero no lanzar ampliamente esta tecnología en este momento, en consonancia con nuestro enfoque de la seguridad de la IA y nuestros compromisos voluntarios". “Esperamos que esta vista previa de Voice Engine enfatice su potencial y también motive la necesidad de fortalecer la resiliencia de la sociedad frente a los desafíos que plantean los modelos generativos cada vez más convincentes”.

La tecnología de clonación de voz no es muy nueva: varios modelos de síntesis de voz de IA han existido desde 2022, y la tecnología está disponible en la comunidad de código abierto con paquetes como OpenVoice y XTTSv2. Sin embargo, es sorprendente la noción de que OpenAI está inclinándose hacia permitir que cualquier persona use su marca de tecnología de voz. Y la reticencia de la empresa a liberarlo por completo podría ser la mayor historia en algunos sentidos.

OpenAI afirma que las ventajas de su tecnología de voz incluyen ayudar a la lectura a través de voces que suenan naturalmente, permitir que los creadores alcancen todo el mundo traduciendo contenido manteniendo los acentos nativos, apoyar a las personas no verbales con opciones de habla personalizadas y ayudar a los pacientes en la recuperación de su propia voz después de condiciones que empeoran el habla.

Sin embargo, también implica que cualquiera con una grabación de 15 segundos de la voz de otra persona puede clonarla con éxito, lo que tiene evidentes implicaciones para un posible mal uso. La habilidad de clonar voces ya ha causado problemas en la sociedad a través de estafas telefónicas donde alguien imita la voz de un ser querido y robocalls de campaña electoral con voces clonadas de políticos como Joe Biden, incluso si OpenAI nunca lanza ampliamente su motor de voz.

OpenAI inicialmente está tratando de trabajar alrededor de esas cuestiones con un conjunto de reglas porque reconoce que la tecnología podría causar problemas si se libera ampliamente. Desde el año pasado, ha estado probando la tecnología con una variedad de empresas asociadas seleccionadas. Por ejemplo, el modelo ha sido utilizado por la empresa de síntesis de video HeyGen para traducir la voz de un hablante a varios idiomas mientras se mantiene el mismo sonido vocal.

Cada socio debe aceptar las condiciones de uso de Voice Engine, que prohíben "imitar a otra persona o organización sin consentimiento o derecho legal". Los términos también dicen que los socios deben obtener el consentimiento informado de las personas cuyas voces están siendo clonadas y que la IA crea las voces. OpenAI también está cocinando una marca de agua en cada muestra de voz para ayudar a rastrear dónde proviene cada voz que su modelo de motor de voz genera.

Por lo tanto, OpenAI está demostrando su tecnología en este momento, pero la empresa aún no está lista para adaptarse al caos social que un lanzamiento amplio podría causar. En cambio, la empresa ha cambiado su enfoque de marketing para que parezca que nos está informando de esta tecnología ya existente de una manera resresponsa.