Con los avances en el sector de la IA han aparecido nuevas plataformas que generan voz a partir de un texto introducido.

Este artículo es un artículo de opinión y no un artículo que pretenda tener la verdad matemática y absoluta. Desconocemos los avances de la IA y lo que sucederá en los próximos años pero en vocesdecine.com, dada nuestra larga experiencia en el sector nos hace estar convencidos, a día de hoy, del contenido de las siguientes líneas.

¿Puede llegar a sustituir la IA a los locutores profesionales? La respuesta es sí y no. Hoy en día, los resultados de la voz generada por IA en español, todavía están lejos de ser creíbles. Son claramente perceptibles algunas transiciones entre letras dando efectos robóticos claros. Es de suponer que estos defectos se irán corrigiendo con el tiempo.

Con IA lo que se puede conseguir es una narración creíble, con una entonación estándar, y con un tipo de voz estándar.

Lo más difícil de conseguir con IA son los matices emocionales de la narración. El ser humano es capaz de transmitir emociones con la voz y estas emociones se transmiten con pequeños matices en el habla. Una voz amable de una voz fría se diferencia por un pequeño matiz. Un buen trabajo interpretativo nos hará saber si una persona que llora lo hace de felicidad, de tristeza contenida o de un dolor desgarrador. También nos hará saber si una persona ríe por diversión, por venganza o por nerviosismo. No es lo mismo narra un audiolibro de misterio, para niños o una enciclopedia. Estos son solo algunos ejemplos de matices que permite la voz humana, pero estos matices son prácticamente infinitos.

Dudamos que se pueda entrenar a una máquina para que los genere y para que sepa cuando utilizarlos.

Esta duda está basada en diferentes argumentos, que son los siguientes:

  • La cantidad de parámetros a introducir por cada voz son muy numerosos y se debe hacer para cada voz para que sea creíble.
  • Dudamos de la capacidad de los entrenadores de las máquinas. ¿Quién estará dispuesto a que clonen su voz y a dejar de trabajar ya que lo puede hacer una máquina por él? Trabajamos con muchos actores de doblaje de primer nivel. Ninguno está dispuesto a entrenar a una máquina para que le sustituya. Esto nos lleva a pensar que quien entrenará a la máquina será un actor de tercer nivel poco solicitado y que tiene poco a perder. Muy probablemente, este actor no sea capaz de dar los matices que le darán la creatividad a la locución profesional.
  • El catálogo de voces que puede ofrecer las plataformas de voz generada por IA es limitado. Nuestros clientes valoran mucho el poder escoger la voz para sus proyectos en función del timbre, de la edad, del carácter de la voz...

En resumen. La voz generada por IA afectará al mercado de la locución en proyectos low cost y con poca exigencia interpretativa. Si hablamos de proyectos que requieran de matices interpretativos, a día de hoy, la IA no es una alternativa viable.

Si lo trasladamos a la comida, las locuciones generadas por IA equivaldrían los restaurantes Fast-Food y las locuciones profesionales hechas por personas de carne y hueso equivaldrían a los restaurantes tradicionales (que no anticuados) donde se ofrece gran variedad de comida que conserva todo su sabor y valor nutritivo. Ambos se pueden comer pero como diría Alejandro Sanz: “No es lo mismo”.