Con los avances en el sector de la IA han aparecido nuevas plataformas que generan voz a partir de un texto introducido.
Este artículo es un artículo de opinión y no un artículo que pretenda tener la verdad matemática y absoluta. Desconocemos los avances de la IA y lo que sucederá en los próximos años pero en vocesdecine.com, dada nuestra larga experiencia en el sector nos hace estar convencidos, a día de hoy, del contenido de las siguientes líneas.
¿Puede llegar a sustituir la IA a los locutores profesionales? La respuesta es sí y no. Hoy en día, los resultados de la voz generada por IA en español, todavía están lejos de ser creíbles. Son claramente perceptibles algunas transiciones entre letras dando efectos robóticos claros. Es de suponer que estos defectos se irán corrigiendo con el tiempo.
Con IA lo que se puede conseguir es una narración creíble, con una entonación estándar, y con un tipo de voz estándar.
Lo más difícil de conseguir con IA son los matices emocionales de la narración. El ser humano es capaz de transmitir emociones con la voz y estas emociones se transmiten con pequeños matices en el habla. Una voz amable de una voz fría se diferencia por un pequeño matiz. Un buen trabajo interpretativo nos hará saber si una persona que llora lo hace de felicidad, de tristeza contenida o de un dolor desgarrador. También nos hará saber si una persona ríe por diversión, por venganza o por nerviosismo. No es lo mismo narra un audiolibro de misterio, para niños o una enciclopedia. Estos son solo algunos ejemplos de matices que permite la voz humana, pero estos matices son prácticamente infinitos.
Dudamos que se pueda entrenar a una máquina para que los genere y para que sepa cuando utilizarlos.
Esta duda está basada en diferentes argumentos, que son los siguientes:
En resumen. La voz generada por IA afectará al mercado de la locución en proyectos low cost y con poca exigencia interpretativa. Si hablamos de proyectos que requieran de matices interpretativos, a día de hoy, la IA no es una alternativa viable.
Si lo trasladamos a la comida, las locuciones generadas por IA equivaldrían los restaurantes Fast-Food y las locuciones profesionales hechas por personas de carne y hueso equivaldrían a los restaurantes tradicionales (que no anticuados) donde se ofrece gran variedad de comida que conserva todo su sabor y valor nutritivo. Ambos se pueden comer pero como diría Alejandro Sanz: “No es lo mismo”.