Los primeros deepfakes de inteligencia artificial, aunque impresionantes desde una perspectiva técnica, eran difíciles de crear y todavía no del todo convincentes. Requerían horas de procesamiento, equipos especializados costosos y conjuntos de datos extensos de audio o video del objetivo. El resultado, aunque sorprendente para su época, frecuentemente contenía artefactos visuales o auditivos que revelaban su naturaleza sintética. Un observador atento podía detectar inconsistencias en la iluminación, movimientos faciales antinaturales o una calidad de audio que sonaba procesada digitalmente.
La tecnología ha avanzado rápidamente desde 2020 aproximadamente, y recientemente ha superado un obstáculo clave: ahora es posible crear deepfakes de audio convincentes en tiempo real usando una combinación de herramientas disponibles públicamente y hardware asequible. Esto es según un reporte publicado por NCC Group, una firma de ciberseguridad, en septiembre de 2025. El documento describe una técnica de "vishing de deepfake", un phishing por voz que usa inteligencia artificial para recrear la voz de un objetivo en tiempo real.
Pablo Alobera, consultor de seguridad gerencial en NCC Group, dice que la herramienta de deepfake en tiempo real, una vez entrenada, puede activarse con solo presionar un botón. "Creamos un *frontend*, una página web, con un botón de inicio. Solo haces clic en iniciar y comienza a funcionar", dice Alobera. La simplicidad de la interfaz oculta la sofisticación técnica subyacente. Lo que antes requería equipos de expertos y días de preparación ahora puede ejecutarse por un atacante individual con conocimientos técnicos moderados en cuestión de minutos.
La herramienta que suplanta voces sin latencia perceptible
NCC Group no ha hecho pública su herramienta de deepfake de voz en tiempo real, pero el documento de investigación de la compañía incluye una muestra del audio resultante. Demuestra que el deepfake en tiempo real es convincente y puede activarse sin latencia perceptible. La calidad del audio de entrada usado en la demostración también es bastante pobre, sin embargo, la salida aún suena convincente. Eso significa que la herramienta podría usarse con una amplia variedad de micrófonos incluidos en laptops y teléfonos inteligentes.
Los deepfakes de audio no son nada nuevo, por supuesto. Una variedad de compañías, como ElevenLabs, proporcionan herramientas que pueden crear un deepfake de audio con solo unos minutos de audio de muestra. Sin embargo, ejemplos pasados de deepfakes de voz de inteligencia artificial no se grabaron en tiempo real, lo que podría hacer el deepfake menos convincente. Los atacantes podrían pregrabar un diálogo falsificado, pero la víctima podría detectarlo fácilmente si la conversación se desviaba del guion esperado. Alternativamente, un atacante podría intentar generar el deepfake sobre la marcha, pero requeriría al menos varios segundos para generar el audio, y frecuentemente mucho más tiempo, llevando a retrasos obvios en la conversación. El deepfake en tiempo real de NCC Group no está obstaculizado por estos problemas.
Alobera dice que, con el consentimiento de los clientes, NCC Group usó el cambiador de voz junto con otras técnicas, como la falsificación de identificador de llamadas, para suplantar individuos. "Casi todas las veces que llamamos, funcionó. El objetivo creyó que éramos la persona que estábamos suplantando", dice Alobera. Esta tasa de éxito es alarmante porque sugiere que las defensas actuales contra la ingeniería social, que frecuentemente dependen del reconocimiento de voz como un factor de autenticación, se han vuelto fundamentalmente poco confiables.
Especificaciones técnicas del deepfake de audio en tiempo real
Desarrollador: NCC Group, firma de ciberseguridad que condujo una investigación sobre técnicas de vishing usando inteligencia artificial generativa en septiembre de 2025.
Base tecnológica: Combinación de herramientas de código abierto y hardware comercial accesible. No depende de servicios de terceros, permitiendo una operación independiente sin rastros en plataformas externas.
Requisitos de hardware: Rendimiento óptimo con GPU de alta gama, pero funciona en una laptop con Nvidia RTX A1000, una de las GPUs de menor rendimiento en la línea actual de Nvidia, con solo medio segundo de retraso.
Activación: Interfaz web simple con un botón de inicio. Una vez entrenada la herramienta, se activa instantáneamente sin configuración adicional por sesión de ataque.
Calidad de entrada: Funciona con audio de entrada de calidad pobre, compatible con micrófonos estándar en laptops y teléfonos inteligentes sin equipos especializados.
Tasa de éxito: Casi todas las pruebas con consentimiento de clientes resultaron en una suplantación exitosa. Los objetivos creyeron estar hablando con la persona suplantada.
La demostración que revela una amenaza sistémica
La demostración de NCC Group es también notable porque no depende de un servicio de terceros, sino que usa herramientas de código abierto y hardware fácilmente disponible. Aunque el mejor rendimiento se logra con una GPU de alta gama, el deepfake de audio también fue probado en una laptop con la RTX A1000 de Nvidia, que está entre las GPUs de menor rendimiento en la línea actual de Nvidia. Alobera dice que la laptop pudo generar un deepfake de voz con solo medio segundo de retraso, un tiempo imperceptible en una conversación telefónica normal donde las pausas naturales frecuentemente exceden este intervalo.
Esta accesibilidad técnica es lo que transforma el deepfake de audio de una amenaza teórica a un riesgo práctico generalizado. Cuando la tecnología requería supercomputadoras o servicios en la nube costosos, el número de actores que podían desplegarla era limitado. Ahora, cualquier persona con una laptop de consumidor de gama media puede ejecutar ataques de suplantación de voz sofisticados. La barrera de entrada no es técnica sino simplemente obtener una muestra de audio del objetivo, lo cual es cada vez más fácil dado que muchas personas tienen voces grabadas disponibles en redes sociales, videos públicos, podcasts o conferencias grabadas.
El reporte de investigación de NCC Group incluye un diagrama de flujo de trabajo detallado que ilustra los pasos requeridos para un ataque de vishing exitoso usando deepfakes de audio en tiempo real. El proceso comienza con el procesamiento de audio y la preparación de un conjunto de datos, donde se recolecta y limpia el audio del objetivo. Sigue el desacoplamiento y la generación de habla, donde el modelo aprende las características vocales específicas. Finalmente, la conversión de voz en tiempo real y la falsificación de identificador de llamadas se combinan para ejecutar el ataque. Cada paso es técnicamente accesible usando herramientas existentes.
Los deepfakes de video que ya engañan a empresas
El éxito de NCC Group en crear una herramienta para deepfakes de voz en tiempo real sugiere que están al borde de volverse *mainstream*. Parece que no siempre puedes creer lo que escuchas, incluso si la fuente es una llamada telefónica con una persona que has conocido durante años. Pero ¿qué pasa con lo que puedes ver? Los deepfakes de video también están teniendo su momento, gracias a una ola de videos deepfake virales que se propagan por TikTok, YouTube, Instagram y otras plataformas de video.
Esto fue posible por el lanzamiento de dos modelos de inteligencia artificial recientes: WAN 2.2 Animate de Alibaba y Gemini Flash 2.5 Image de Google, frecuentemente mencionado como Nano Banana. Mientras que modelos anteriores frecuentemente podían replicar las caras de celebridades, los modelos más recientes pueden usarse para crear deepfakes de cualquier persona y colocarlas en casi cualquier entorno. La sofisticación técnica de estos modelos permite una manipulación que anteriormente requería artistas de efectos visuales profesionales trabajando durante semanas.
Trevor Wiseman, fundador de The Circuit, un consultor de ciberseguridad de inteligencia artificial, dice que ya ha visto casos donde compañías e individuos fueron engañados por deepfakes de video. Dijo que una compañía fue estafada en el proceso de contratación y "realmente envió una laptop a una dirección en Estados Unidos que terminó siendo un lugar de retención para una estafa". El atacante usó un deepfake de video durante entrevistas virtuales, presentándose como un candidato calificado. La compañía, convencida de la legitimidad del candidato, envió un equipo corporativo que nunca fue recuperado.
Las limitaciones actuales y las señales reveladoras
Tan impresionantes como son los últimos deepfakes de video, aún hay limitaciones. A diferencia del deepfake de audio de NCC Group, los últimos deepfakes de video todavía no son capaces de resultados de alta calidad en tiempo real. También hay todavía algunas señales reveladoras. Wiseman dice que incluso los últimos deepfakes de video tienen problemas para hacer coincidir la expresión de una persona con su tono de voz y comportamiento. "Si están emocionados pero no tienen emoción en su cara, es falso", dice. Esta desconexión entre audio y expresión facial es un artefacto de cómo funcionan los modelos generativos actuales, que frecuentemente procesan audio y video separadamente antes de combinarlos.
Otras señales incluyen inconsistencias en la iluminación cuando la persona se mueve, artefactos alrededor de los bordes del rostro donde la imagen sintética se encuentra con el fondo, y movimientos oculares que no rastrean apropiadamente objetos en el ambiente. Los deepfakes de video también frecuentemente tienen dificultades con oclusiones, momentos donde algo pasa frente al rostro de la persona. Manos, cabello u objetos que cruzan frente a la cara pueden revelar que la imagen es sintética porque el modelo tiene problemas prediciendo cómo estas oclusiones deberían interactuar con el rostro subyacente.
Sin embargo, este puede ser un caso donde las excepciones prueban la regla. Wiseman señala que la tecnología ya es suficientemente buena para engañar a la mayoría de las personas la mayoría de las veces. El problema no es que los deepfakes sean perfectos, sino que son suficientemente buenos para superar el nivel de escrutinio que la mayoría de las personas aplican durante interacciones normales. En una llamada de video rutinaria con un colega o una reunión con un proveedor potencial, pocas personas están activamente buscando artefactos de deepfake. La cognición humana está optimizada para confiar en señales familiares de voz y apariencia, no para auditorías forenses de autenticidad multimedia.
Casos documentados de estafas con deepfakes
Estafa de contratación corporativa: Una empresa envió una laptop a un candidato falso que usó un deepfake de video durante entrevistas virtuales. El equipo fue enviado a una dirección de retención y nunca recuperado.
Transferencias financieras fraudulentas: Ejecutivos han sido engañados para autorizar transferencias bancarias grandes después de llamadas de voz deepfake aparentemente de directores ejecutivos o directores financieros solicitando movimientos urgentes de fondos.
Extorsión y chantaje: Atacantes crean contenido deepfake comprometedor de víctimas y amenazan con publicarlo a menos que se pague un rescate, explotando el miedo al daño reputacional.
Suplantación de soporte técnico: Atacantes usan deepfakes de audio imitando a representantes de soporte de compañías tecnológicas para obtener credenciales de acceso o información de tarjetas de crédito.
Fraude de inversión: Esquemas Ponzi y estafas de inversión usan *endorsements* deepfake de celebridades o figuras financieras respetadas para atraer víctimas y dar legitimidad a ofertas fraudulentas.
El colapso de la confianza basada en voz y video
Wiseman sugiere que compañías e individuos necesitarán nuevas tácticas para autenticarse que no dependan de conversaciones de voz o video. La implicación es profunda: los métodos tradicionales de verificación de identidad que los humanos han usado durante milenios, reconocer la voz y el rostro de alguien, ya no son confiables en un contexto digital. "Sabes, soy fanático del béisbol", dice Wiseman. "Siempre tienen señales. Suena cursi, pero en el día en que vivimos, tienes que idear algo que puedas usar para decir si esto es real o no".
La referencia al béisbol no es casual. En ese deporte, entrenadores y jugadores usan sistemas elaborados de señales, gestos sutiles y códigos que comunican estrategia sin que el equipo contrario pueda interceptar la información. Wiseman sugiere que individuos y organizaciones necesitan desarrollar sistemas equivalentes: métodos de autenticación que no pueden ser replicados por observación pasiva. Esto podría incluir frases de código preestablecidas, preguntas cuyas respuestas solo las personas legítimas conocerían, o protocolos de verificación fuera de banda donde la confirmación ocurre a través de un canal diferente del usado para la comunicación principal.
Algunas organizaciones ya están implementando protocolos de este tipo. Las instituciones financieras entrenan a sus empleados para que nunca procesen solicitudes de transferencia grandes basadas solo en llamadas telefónicas, independientemente de cuán convincente suene la voz. Requieren verificación de dos factores a través de canales separados: correo electrónico, mensaje de texto o incluso verificación en persona para transacciones particularmente grandes. Las familias están desarrollando palabras de código que solo los miembros conocen, permitiéndoles verificar la identidad si reciben llamadas sospechosas. Estas medidas parecen incómodas y paranoicas, pero se están volviendo necesarias en un mundo donde el audio y el video ya no constituyen una prueba confiable de identidad.
El futuro donde nada es verificable por defecto
La llegada de los deepfakes de audio en tiempo real y la mejora continua de los deepfakes de video marcan una transición hacia un futuro donde la autenticidad multimedia no puede asumirse por defecto. Esto tiene implicaciones que van más allá de un fraude financiero o la suplantación corporativa. En un contexto político, deepfakes convincentes podrían usarse para crear declaraciones falsas de funcionarios públicos, potencialmente desestabilizando elecciones o relaciones internacionales. En un contexto legal, la evidencia de audio o video, tradicionalmente considerada altamente confiable, puede volverse cuestionable, complicando los procesos judiciales.
En un contexto social, la erosión de la confianza en la comunicación de voz y video podría fragmentar aún más las conexiones humanas ya tensionadas por la polarización y la desinformación. Si no puedes confiar en que la persona en el otro extremo de la llamada es quien dice ser, ¿cómo mantienes relaciones? ¿Cómo coordinas emergencias familiares? ¿Cómo conduces los negocios? La respuesta probablemente involucrará una combinación de soluciones técnicas, como la criptografía de clave pública para firmar digitalmente comunicaciones auténticas, y soluciones sociales, como los sistemas de señales que Wiseman sugiere.
La industria tecnológica está comenzando a responder. Algunas compañías están desarrollando herramientas de detección de deepfakes que analizan audio y video en busca de artefactos sutiles que revelan manipulación. Pero esta es una carrera armamentista donde los generadores de deepfakes mejoran continuamente, frecuentemente superando a los detectores. Otras compañías están explorando marcas de agua digitales o metadatos criptográficos que podrían verificar que el audio o video fue capturado por un dispositivo específico en un momento específico sin alteración subsecuente. Pero estos sistemas requieren una adopción generalizada para ser efectivos, y no abordan el problema del contenido creado antes de que los estándares se implementaran.
Referencias
NCC Group. (2025). Real-time deepfake vishing: Technical report on voice phishing using AI. Documento de investigación en ciberseguridad, septiembre 2025.
Smith, Matthew S. (2025). Real-time Audio Deepfakes Have Arrived. IEEE Spectrum, artículo de análisis tecnológico, octubre 2025.
Alobera, Pablo. (2025). Entrevista sobre herramienta de deepfake de audio en tiempo real. NCC Group, consultor de seguridad gerencial.
Wiseman, Trevor. (2025). Análisis de deepfakes de video en procesos de contratación. The Circuit, consultoría de ciberseguridad de inteligencia artificial.
Alibaba. (2025). WAN 2.2 Animate: Advanced video generation model. Documentación técnica de modelo de inteligencia artificial generativa.
Google. (2025). Gemini Flash 2.5 Image (Nano Banana): Video deepfake capabilities. Especificaciones de modelo de generación de video.



