banner
Centro de Noticias
Servicio al cliente excepcional

Las voces de la IA son difíciles de detectar incluso si sabes que el audio podría ser un deepfake

Jul 15, 2023

El audio deepfake puede engañar a las personas incluso cuando saben que podrían estar escuchando una voz generada por IA: es posible que sea necesario intensificar los detectores impulsados ​​por IA para ayudar a las personas a distinguir los deepfakes del habla humana auténtica.

Por Jeremy Hsu

2 de agosto de 2023

¿Podrías saber si estabas escuchando una voz generada por IA?

Shutterstock/fizkes

Incluso cuando las personas saben que pueden estar escuchando un discurso generado por IA, sigue siendo difícil para los hablantes de inglés y mandarín detectar de manera confiable una voz deepfake. Eso significa que miles de millones de personas que entienden los idiomas más hablados del mundo están potencialmente en riesgo cuando se exponen a estafas o información errónea.

Kimberly Mai del University College London y sus colegas desafiaron a más de 500 personas a identificar falsificaciones de voz entre múltiples clips de audio. Algunos clips contenían la voz auténtica de una hablante que leía oraciones genéricas en inglés o mandarín, mientras que otros eran deepfakes creados por IA generativas entrenadas en voces femeninas.

Leer más:

El hormigón que almacena energía podría formar los cimientos de casas alimentadas con energía solar

Anuncio

Los participantes del estudio fueron asignados aleatoriamente a dos posibles configuraciones experimentales diferentes. Un grupo escuchó 20 muestras de voz en su idioma nativo y tuvo que decidir si los clips eran reales o falsos.

Las personas clasificaron correctamente los deepfakes y las voces auténticas aproximadamente el 70 por ciento de las veces, tanto para las muestras de voz en inglés como en mandarín. Eso sugiere que la detección humana de deepfakes en la vida real probablemente será aún peor porque la mayoría de las personas no necesariamente sabrían de antemano que podrían estar escuchando discursos generados por IA.

A un segundo grupo se le entregaron 20 pares de clips de audio elegidos al azar. Cada par presentaba la misma frase pronunciada por un humano y el deepfake, y se pidió a los participantes que señalaran el falso. Esto aumentó la precisión de la detección a más del 85 por ciento, aunque el equipo reconoció que este escenario daba a los oyentes una ventaja poco realista.

Suscríbete a nuestro boletín El Diario

Las últimas noticias científicas enviadas a su bandeja de entrada, todos los días.

"Esta configuración no es completamente representativa de escenarios de la vida real", dice Mai. "A los oyentes no se les diría de antemano si lo que están escuchando es real, y factores como el sexo y la edad del hablante podrían afectar el rendimiento de la detección".

El estudio tampoco retó a los oyentes a identificar si los deepfakes suenan o no como la persona objetivo a la que están imitando, dice Hany Farid de la Universidad de California, Berkeley. Identificar la voz auténtica de oradores específicos es importante en escenarios de la vida real: los estafadores han clonado las voces de líderes empresariales para engañar a los empleados para que transfieran dinero, y las campañas de desinformación han subido deepfakes de políticos conocidos a las redes sociales.

Leer más:

La seda de araña artificial podría ayudarnos a recolectar agua potable del aire

Aún así, Farid describió que dicha investigación ayuda a evaluar qué tan bien los deepfakes generados por IA se están “moviendo a través del valle inquietante”, imitando el sonido natural de las voces humanas sin retener diferencias sutiles en el habla, que pueden resultar inquietantes para los oyentes. El estudio proporciona una base útil para los sistemas automatizados de detección de deepfake, afirma.

Los intentos adicionales de capacitar a los participantes para mejorar su detección de deepfakes generalmente fracasaron. Eso sugiere que es importante desarrollar detectores de deepfake impulsados ​​por IA, afirma Mai. Ella y sus colegas buscan probar si grandes modelos de lenguaje capaces de procesar datos de voz pueden hacer el trabajo.

Referencia de la revista:

MÁS UN DOI: 10.1371/journal.pone.0285333

Temas:

Anuncio