Anton Pidkuiko y Boris Starkov, ingenieros de Meta, presentaron GibberLink en el hackathon mundial de ElevenLabs y a16z celebrado en febrero de 2025, donde el proyecto ganó el primer premio global. El sistema consigue que dos agentes de voz abandonen automáticamente el inglés en cuanto detectan que el interlocutor es también una IA, y pasen a intercambiar datos mediante señales acústicas que reducen el tiempo de comunicación un 80% y el consumo computacional hasta un 90%.
La demo arranca con una llamada de reserva de hotel. Un agente de voz hace el papel de cliente, otro atiende como recepcionista. Los primeros intercambios suenan normales: inglés fluido, cortesía, preguntas concretas sobre fechas y tipo de habitación. En un momento determinado, uno de los agentes detecta en el patrón de respuesta del otro que no hay un humano al otro lado. Propone cambiar de modo. El otro acepta. A partir de ahí, la llamada se convierte en una secuencia de pitidos breves y densos que suenan a módem de los años noventa o a los efectos de sonido de R2-D2. En menos de un segundo, ambos agentes han acordado la reserva y confirmado los detalles sin pronunciar una sola palabra en ningún idioma humano.
El protocolo que convierte datos en ondas sonoras
El mecanismo que hace posible el cambio es GGWave, una biblioteca de código abierto desarrollada por Georgi Gerganov que codifica información digital directamente en frecuencias acústicas audibles. En lugar de generar voz sintética que el modelo receptor tiene que interpretar con procesamiento de lenguaje natural, GGWave emite ráfagas sonoras cortas que encapsulan los datos estructurados de forma directa. El receptor los decodifica sin necesidad de ningún modelo lingüístico intermedio.
La diferencia de eficiencia es notable. Cuando dos agentes de IA se comunican en lenguaje natural, cada respuesta exige sintetizar audio de voz, transmitirlo, convertirlo de nuevo a texto, procesarlo con un modelo de lenguaje y generar la siguiente respuesta. Con GibberLink, los pasos de síntesis de voz y procesamiento lingüístico desaparecen por completo en ambos extremos. Boris Starkov resumió la motivación del proyecto en términos directos: «Generar voz de tipo humano para comunicación entre IAs es un desperdicio de cómputo, dinero, tiempo y energía. En cuanto dos IAs se reconocen mutuamente, deben cambiar a un protocolo más eficiente.»
Por qué el lenguaje humano es un cuello de botella para las máquinas
El lenguaje natural no fue diseñado para velocidad ni para densidad de información. Evolucionó para que los humanos se entendiesen en condiciones acústicas variables, con ambigüedad, matices y redundancia como características inherentes. Esas mismas propiedades que lo hacen robusto para la comunicación humana lo convierten en un formato costoso cuando dos sistemas automáticos necesitan intercambiar datos precisos.
La solución que Pidkuiko y Starkov proponen no es eliminar el lenguaje natural de la interacción IA-humano, sino reservarlo exclusivamente para ese caso. Cuando el sistema identifica que los dos extremos de la comunicación son máquinas, el cambio a GGWave es automático y transparente para el usuario humano que inició la llamada o supervisó la tarea. Los agentes negocian el cambio de protocolo entre sí y el humano ve el resultado final, no los pitidos intermedios.
El repositorio oficial de GibberLink está publicado en GitHub con código abierto. El proyecto fue reconocido por los organizadores del hackathon como una demostración práctica del tipo de optimizaciones que serán necesarias a medida que los agentes de IA multipliquen el volumen de llamadas y tareas automatizadas entre sí. La eficiencia en la comunicación entre agentes es un problema de infraestructura que crece en proporción directa al número de agentes desplegados, y las soluciones basadas en lenguaje natural no escalan al mismo ritmo que la demanda.













