Mayo 2024: GPT-4o habla en tiempo real, Google I/O apuesta todo a la IA y CrowdStrike aún no sabe lo que viene

Mayo de 2024 fue el mes donde la inteligencia artificial dejó de ser una promesa de capacidades futuras y comenzó a demostrarse como una nueva capa de infraestructura que cambia la relación entre humanos y máquinas en tiempo real. GPT-4o habló, escuchó y respondió con la naturalidad de una conversación humana. Google I/O demostró que el buscador más poderoso del mundo no está dispuesto a perder la era de la IA. Y mientras tanto, en el sector de ciberseguridad, una brecha masiva a través de credenciales robadas recordó que la velocidad de adopción de la nube no siempre va acompañada de los controles necesarios.

GPT-4o: la voz como nueva interfaz de computación

El 13 de mayo, OpenAI realizó una demostración en vivo de GPT-4o —el modelo "omni"— con capacidades de conversación por voz en tiempo real. El modelo puede escuchar, ver a través de una cámara y responder verbalmente con una latencia de milisegundos, con entonación, pausas y expresividad emocional que los sistemas de síntesis de voz anteriores no podían producir. La demo incluyó al modelo ayudando a alguien a resolver una ecuación matemática mientras la cámara apuntaba a un papel, y respondiendo a cambios de tono y emoción en la voz del interlocutor.

La referencia a la película "Her" de Spike Jonze —donde el protagonista se enamora de un sistema operativo de IA con voz natural— circuló ampliamente en los días siguientes a la demostración. No como crítica, sino como reconocimiento de que algo en el paradigma de interacción había cruzado un umbral perceptible. La latencia de GPT-4o en modo voz era comparable a la de una llamada telefónica de buena calidad, no a la de un asistente de voz con pausas visibles mientras procesa.

Para los diseñadores de experiencias de usuario y los desarrolladores de aplicaciones, GPT-4o introduce una pregunta de diseño que hasta ahora era teórica: si la voz es tan fluida como una conversación humana, ¿qué tipo de aplicaciones se vuelven posibles que antes no lo eran? Los candidatos más obvios incluyen tutores educativos adaptivos, atención al cliente de primera línea sin escalamiento humano, herramientas de accesibilidad para personas con limitaciones visuales y asistentes de campo para trabajadores que no pueden interactuar con pantallas. Todos estos casos tienen en común que la fricción de la interfaz anterior —escribir texto, esperar respuesta, leer— era el principal obstáculo para la adopción.

Google I/O 2024: el gigante demuestra que sigue en carrera

La conferencia Google I/O de mayo fue, en parte, una respuesta implícita a las narrativas sobre el rezago de Google en la era de la IA generativa. Google presentó Gemini 1.5 Pro con disponibilidad general para desarrolladores, Project Astra —un prototipo de asistente de IA con visión en tiempo real que puede analizar el entorno a través de la cámara de un teléfono— y NotebookLM, una herramienta para análisis profundo de documentos con capacidades de síntesis y preguntas sobre fuentes propias.

Google tiene ventajas estructurales en la carrera de IA que ningún competidor puede replicar en el corto plazo: control sobre el motor de búsqueda más utilizado del mundo, infraestructura de cómputo global, décadas de datos de comportamiento de usuario y un ecosistema de productos —Gmail, Docs, Maps, YouTube— donde la integración de IA produce valor inmediato para cientos de millones de usuarios. El riesgo de Google no es técnico; es de organización y velocidad de ejecución en un mercado donde el ritmo de cambio es inusualmente alto.

Project Astra, en particular, señala la dirección donde Google ve la siguiente fase de los asistentes de IA: no como chatbots de texto, sino como sistemas con percepción multimodal del entorno físico que pueden responder a preguntas sobre lo que el usuario está viendo, leyendo o haciendo. La integración de esto en dispositivos Android —con una base instalada de más de 3 mil millones de dispositivos— tiene el potencial de ser el despliegue de IA generativa más masivo de la historia.

Humane AI Pin: el primer fracaso notable del hardware de IA

El Humane AI Pin, lanzado en abril y entregado a los primeros compradores en mayo, recibió reseñas que de manera consistente llegaron a la misma conclusión: el concepto era interesante, la ejecución era insuficiente. El dispositivo —un pin que se prende en la ropa, sin pantalla, con interfaz por voz y un proyector láser para mostrar información en la palma de la mano— se sobrecalentaba con uso prolongado, la batería duraba pocas horas, la latencia de respuesta era perceptiblemente lenta y muchas funciones básicas simplemente no funcionaban con la confiabilidad mínima requerida para un producto de consumo a 699 dólares.

Las reseñas de publicaciones como The Verge calificaron el dispositivo con 4/10, un puntaje inusualmente bajo para un producto de tecnología de consumo de un equipo con credenciales de Apple y otras empresas de primer nivel. El AI Pin no fracasó porque la idea fuera mala; fracasó porque el software, la duración de batería y el calor generado no estaban a la altura del hardware y del precio. Es el tipo de fracaso instructivo: demuestra que reducir la interfaz de usuario a puro contexto de IA, sin pantalla y sin interacción táctil, es un problema de diseño no resuelto a la fecha.

"El fracaso del AI Pin no invalida la idea de que la próxima interfaz de computación no tendrá pantalla. Solo demuestra que todavía no hemos llegado ahí."

Microsoft Copilot+ PCs: la IA se mueve al dispositivo

En mayo, Microsoft anunció las primeras laptops certificadas como Copilot+ PCs, equipadas con unidades de procesamiento neuronal (NPU) con capacidad mínima de 40 TOPS (trillion operations per second). Las primeras máquinas bajo esta certificación usaron el procesador Snapdragon X Elite de Qualcomm. La propuesta central: ejecutar modelos de IA localmente en el dispositivo, sin conexión a internet, con privacidad de datos y sin latencia de red.

La funcionalidad más llamativa anunciada fue Recall —una capacidad de memoria visual continua que captura y hace buscable todo lo que el usuario ve en su pantalla. La propuesta generó controversia significativa sobre privacidad, al punto que Microsoft retrasó su lanzamiento para revisar los controles de seguridad. Más allá de Recall, el paradigma de NPU en el dispositivo representa un cambio real: la inferencia de IA ya no requiere infraestructura en la nube para casos de uso comunes.

Snowflake y la brecha por credenciales: el MFA como control no negociable

A finales de mayo comenzó a saberse que cientos de clientes de Snowflake —la plataforma de datos en la nube— habían sufrido compromisos de sus entornos a través de credenciales de usuario robadas. Los atacantes no vulneraron la infraestructura de Snowflake; accedieron a las cuentas de clientes específicos cuyos usuarios no tenían autenticación multifactor habilitada. Entre los afectados se encontraron Ticketmaster, Santander Bank y otras empresas de alto perfil. El número de registros expuestos en el caso de Ticketmaster se estimó en cientos de millones.

El patrón es el mismo que en el ataque a Microsoft de enero: el vector de entrada fue la ausencia de MFA en cuentas con acceso a datos sensibles. Snowflake en ese momento no requería MFA de manera obligatoria para todos los tenants; era una configuración opcional que los administradores podían activar. Muchos no lo hicieron. El resultado fue previsible. Para cualquier organización que almacena datos de clientes en plataformas SaaS o de nube, la ausencia de MFA en todas las cuentas con acceso a datos no es una brecha de configuración menor: es una postura de riesgo inaceptable en el entorno de amenazas actual.