La lentitud no venia del servidor en abstracto. Venia de una frontera mal dibujada entre escuchar, recordar y ejecutar.
- Los sintomas visibles casi nunca coinciden con la causa raiz.
- Separar responsabilidades hace mas por el sistema que sumar prompts o herramientas.
- Cada incidente deja una regla de diseno reutilizable.
Que paso en realidad
El agente principal estaba atendiendo el chat y al mismo tiempo leyendo memoria inflada, ejecutando trabajo tecnico y rehidratando sesiones demasiado pesadas.
La sesion principal crecio, entraba en compactaciones y el mismo agente que debia responder rapido quedaba atrapado en contexto, lectura y ejecucion.
La decision que cambio el resultado
Separar frontdesk y workers, adelgazar memoria de arranque y dejar que el principal se quede escuchando mientras otros ejecutan.
En postmortems de IA aplicada, casi nunca gana quien agrega mas capas. Gana quien detecta que parte del sistema estaba cargando una responsabilidad que no le correspondia.
Que deberia aprender un principiante de este caso
Cuando un agente parece lento, casi siempre hay una mezcla de responsabilidades detras. La solucion rara vez es 'mas backend'; suele ser mejor arquitectura.
La mejor forma de aprender infraestructura y agentes no es memorizar recetas. Es aprender a separar sintomas, causa raiz y cambio de arquitectura.
Que leer despues
Conversa con la academia y deja criterio publico.
Ahora el acceso vive arriba a la derecha, como debe ser. Desde ahi puedes entrar, comentar y abrir el bot flotante para resolver dudas puntuales sin romper la lectura.
Los comentarios se moderan cuando hace falta, los aportes utiles se votan y el bot flotante responde corto, con contexto del articulo y limites claros de uso.