Context

Context Platform StackContext Platform StackContext Platform Stack

Four interdependent engineering layers that determine whether AI agents reach production or join the agent cemetery: Cloud Infrastructure, Platform Engineering, Context Engineering, and Intent Engineering.Quatro camadas interdependentes de disciplina de engenharia que determinam se agentes de IA chegam à produção ou engrossam o cemitério de agentes: Infraestrutura Cloud, Engenharia de Plataforma, Engenharia de Contexto e Engenharia de Intenção.Cuatro capas interdependientes de disciplina de ingeniería que determinan si los agentes de IA llegan a producción o engrosán el cementerio de agentes: Infraestructura Cloud, Ingeniería de Plataforma, Ingeniería de Contexto e Ingeniería de Intención.

Last updated July 2, 2026 Última atualização 2 de julho de 2026 Última actualización 2 de julio de 2026

75%

Plan agentic AI within 2 years (Deloitte 2026, n=3,235)Planejam IA agêntica em 2 anos (Deloitte 2026, n=3.235)Planean IA agéntica en 2 años (Deloitte 2026, n=3,235)

34%

Actually transforming the business (Deloitte)De fato transformando o negócio (Deloitte)De hecho transformando el negocio (Deloitte)

+18% / +39%

Static-analysis warnings / cognitive complexity (CMU)Warnings de análise / complexidade cognitiva (CMU)Warnings de análisis / complejidad cognitiva (CMU)

304K

AI commits across 6,275 repos analyzed (Liu et al. 2026)Commits IA em 6.275 repos analisados (Liu et al. 2026)Commits IA en 6,275 repos analizados (Liu et al. 2026)

Stack layer Camada do stack Capa del stack Context engineering Context engineering Context engineering Related Relacionados Relacionados Config & Context Architecture Agents, Skills, Plugins, Hooks

Choose your format Escolha seu formato Elige tu formato

Read the article below, present the deck, or go deep with the playbook. The same thesis, calibrated to how you need to engage with it. Leia o artigo abaixo, apresente o deck ou aprofunde com o playbook. A mesma tese, calibrada para a forma como você precisa engajar. Lee el artículo abajo, presenta el deck o profundiza con el playbook. La misma tesis, calibrada para cómo necesitas interactuar.

Playbook · v1.0.0

Multi-page playbook ↗ Playbook multi-página ↗ Playbook multipágina ↗

Long-form, chaptered reference with search and dark mode. Referência completa em capítulos, com busca e modo escuro. Referencia extensa en capítulos, con búsqueda y modo oscuro.

EN · PT-BR · ES PDF EN PT ES

Deck · Context platform

Context Platform Stack ↗

Presentation deck, public and notes-free, trilingual with live language switch. Deck de apresentação, público e sem notas, trilíngue com troca de idioma ao vivo. Deck de presentación, público y sin notas, trilingüe con cambio de idioma en vivo.

v2.0.0 Download PDF Baixar PDF Descargar PDF EN ES PT

What's inside O que tem dentro Qué hay dentro

Four layers, one model.Quatro camadas, um modelo.Cuatro capas, un modelo.

Each layer answers a single question. Each constrains the layer below. Skip a layer and the agent cemetery grows.Cada camada responde a uma pergunta. Cada uma restringe a de baixo. Pule uma camada e o cemitério de agentes cresce.Cada capa responde a una pregunta. Cada una restringe a la de abajo. Salta una capa y el cementerio de agentes crece.

LAYER 04

Intent engineeringIntent engineeringIntent engineering

Constitutions, specifications, governance. The codified rules an agent must follow before doing anything else.Constituições, especificações, governança. As regras codificadas que um agente deve seguir antes de qualquer coisa.Constituciones, especificaciones, gobernanza. Las reglas codificadas que un agente debe seguir antes que nada.

LAYER 03

Context engineeringContext engineeringContext engineering

ACE, skills, memory tiers, MCP. What the agent can read at runtime, where it lives, how it expires.ACE, skills, camadas de memória, MCP. O que o agente pode ler em runtime, onde mora, como expira.ACE, skills, capas de memoria, MCP. Lo que el agente puede leer en runtime, dónde vive, cómo expira.

LAYER 02

Platform engineeringPlatform engineeringPlatform engineering

IDP, golden paths, guardrails, RBAC. The runtime that lets agents act safely without inventing infrastructure.IDP, golden paths, guardrails, RBAC. O runtime que permite ao agente agir com segurança sem reinventar infra.IDP, golden paths, guardrails, RBAC. El runtime que permite al agente actuar con seguridad sin reinventar infra.

LAYER 01

Cloud & infrastructureCloud & infraestruturaCloud & infraestructura

GPUs, Kubernetes, CNCF services. Where do agents run, and at what cost.GPUs, Kubernetes, serviços CNCF. Onde os agentes rodam, e a que custo.GPUs, Kubernetes, servicios CNCF. Dónde corren los agentes, y a qué costo.

The Agent Cemetery

MIT’s State of AI in Business 2025 found that 95% of enterprise GenAI pilots deliver no measurable value, while 78% of organizations report using AI in at least one function (McKinsey). Near-universal adoption on one side, single-digit delivered value on the other. That gap between executive confidence and deployment reality is not a technology problem. It is an engineering discipline problem.

The funnel we observe across the enterprise engagements behind this body of work is predictable. In a typical enterprise budget of $50M for AI initiatives, 42 POCs are funded in a fiscal year. Eleven reach internal pilot. Three reach production serving real traffic. One generates measurable revenue or cost reduction (2.4% of the investment). In those same engagements, organizations working with a structured approach to the four layers reached a 62% deployment rate, an order of magnitude above the norm MIT documented. The difference is not the model or the tooling. It is layer discipline.

Why Pilots Fail in Production

Three root causes explain 80% of failures:

Infrastructure treated as commodity. Agentic workloads are stateful, noisy, and require tool selection at runtime. Running on “generic Kubernetes” works up to three agents. From thirty agents onward, it breaks predictably.

Context treated as a detail. “The agent will learn on its own” is the phrase that precedes failure. Context is an engineered artifact with three memory tiers, a token budget, and weekly human curation.

Intent treated as optional. No architecture survives “do your best” as a directive. Agents need an explicit hierarchy of trade-offs or they learn an implicit one. Usually the wrong one.

A fourth factor compounds all three: agents benchmarked on bug-fix tasks are 7× easier to demonstrate than agents performing real feature work. Claude Opus 4.5 scores 74.4% on SWE-bench (bug fixes) and only 11.0% on FeatureBench (greenfield features). POCs built around bug-fix demos systematically overestimate production capability.

The Four-Layer Stack

The Context Platform Stack defines four interdependent layers, each with a distinct owner, a distinct metric, and a distinct governance conversation.

Layer 01, Cloud and Infrastructure: Where agents run, at what real cost. Compute, GPU, Kubernetes, CNCF patterns, observability. The question this layer answers: where do agents run, and at what cost?

Layer 02, Platform Engineering: What agents can access, and who governs it. IDP, golden paths, guardrails, per-agent RBAC, quotas, audit agent. The question: what can agents access?

Layer 03, Context Engineering: What agents can know, when, and at what token cost. The ACE pattern, skills, three memory tiers (hot, warm, cold), MCP servers. The question: what can agents know?

Layer 04, Intent Engineering: What agents must optimize, and in what trade-off hierarchy. CONSTITUTION.md, SDD with EARS syntax, intent debt, specification engineering. The question: what should agents optimize?

The layers are not independent. Each layer serves the one above and constrains the one below. Treating agents as microservices breaks this contract in all four directions. That is why so many pilots work perfectly in the lab and fail in production.

Layer 01: Infrastructure

The CNCF Working Group published a Cognitive Platform Engineering reference architecture in 2025 with four planes: the data plane (Kubernetes, GPU, containers), the intelligence plane (workload patterns, optimization), the control plane (OPA policy enforcement, scheduling, quotas), and the experience plane (developer portals, CLIs, dashboards). The Sense-Reason-Act loop closes without human intervention: workload changes, the intelligence plane observes, the platform adapts.

The cost anatomy of a production agent surprises most teams. In the production baselines we have measured, 42% is compute (what everyone measures). The remaining 58% is invisible until the invoice: 28% inference tokens (often ignored), 15% memory and vector DB (grows linearly with use), 10% network and MCP proxies, and 5% observability, almost always underfunded. If your team tracks only compute, your TCO estimate is off by a factor of two.

At the pod level, a production agentic workload runs four containers, not one: the agent runtime (model, main loop, decision logic), an MCP sidecar (terminates MCP connections, enforces RBAC and token rate limits, emits audit trail), a context sidecar (hot memory layer, skills resolver, CONSTITUTION.md), and a telemetry sidecar (OTel collector, decision spans, MELT metrics). The pod topology is the first platform engineering decision that determines whether the agent will scale.

Layer 02: Platform Engineering

The agentic IDP has seven components. Only two differ from a standard developer IDP: an Agent API alongside the human portal, and per-agent RBAC alongside standard policy-as-code. Without those two additions, the IDP is good for humans and invisible to agents.

Per-agent RBAC means every agent carries a distinct SPIFFE SVID (cryptographic workload identity), and every resource permission is a policy in OPA. A summarizer-agent gets read access to the production database, call rights to the model, and a daily quota of 50K tokens. An sre-incident-agent gets emergency break-glass access with an approval gate on write operations. Mixing these permissions in a single agent (the “one-big-agent” anti-pattern) means the first incident compromises everything.

Layer 03: Context Engineering

Context engineering is not prompt engineering with more steps. Prompt engineering optimizes a single agent-model interaction; its scope is one API call, its artifact is a versioned text template, and its time horizon is minutes. Context engineering designs the complete knowledge surface of an agent over time; its scope is the system across hundreds of interactions, its artifact is a memory architecture with curated skills and MCP servers, and its time horizon is months.

The three memory tiers:

Hot (~660 tokens): Always in context. CONSTITUTION.md, agent identity, inviolable principles, safety hooks. Updated only on deploy.
Warm (~2,000 tokens per activated skill): Loaded on demand by the task classifier. Specialist skills, per-repository AGENTS.md, domain schemas. Curated manually by tech leads weekly.
Cold (~1,500 tokens per query): Never pre-loaded. Retrieved via MCP server with per-agent RBAC applied. Corporate knowledge base, production data, code.

A well-engineered agent stays within roughly 4,160 tokens per invocation. A poorly engineered one loads everything into hot memory and pays 30,000 tokens per trivial task.

The ACE pattern (Artifacts + Context + Execution) was applied to a 108,247-line C# enterprise backend over 12 weeks (283 agent sessions, 2,801 user prompts). Results: −32% tokens per task (from 18K to 12.2K per invocation), −47% p95 latency (from 9.2s to 4.9s), and +18% task completion rate. The migration from monolithic context injection to ACE took three weeks. That is cheaper than the token savings in the first month.

A controlled experiment across 47 internal repositories showed that human-curated AGENTS.md reduced runtime −28.64% and token consumption −16.58%. LLM-generated AGENTS.md added +3.02% overhead. Auto-generated documentation documents the obvious and omits the critical: tacit team knowledge that only humans can identify.

Layer 04: Intent Engineering

Intent engineering operates at four levels. Most organizations invest only in level 01 (prompt writing, time horizon: minutes) and leave levels 02-04 implicit. The hierarchy is cumulative: level 04 only works if 01-03 are explicit.

Level 01: Prompt writing
Level 02: Context curation (skills, AGENTS.md, policies)
Level 03: Intent design (CONSTITUTION.md, objective hierarchy, hooks)
Level 04: Specification engineering (SDD with EARS, machine-testable contracts)

CONSTITUTION.md has five mandatory sections: Identity (who the agent is, scope, limits), Values and trade-offs (ordered objective hierarchy: “prefer X to Y, always”), Hard constraints (inviolable: “never do Z under any circumstances”), Protocols (procedures for recurring situations), and Escalation hooks (when the agent must stop and call a human).

Specification Driven Development with EARS (Easy Approach to Requirements Syntax, ISO/IEC/IEEE 29148) turns ambiguous requirements into machine-testable contracts. “The system should be resilient to network failures” becomes: When a network call fails 3 times in 60s, the system shall open circuit breaker. While circuit is open, the system shall serve cached responses for up to 30 seconds.

Intent debt measures the gap between what you said the agent should do and what it is actually doing. The formula: ID = Σ(Dᵢ × Sᵢ). That is the sum of decision drift weighted by decision stake. An agent making 3 high-risk decisions per week, 12 medium-risk, and 80 low-risk decisions scores an intent debt of 5.0. Organizations that treat intent as post-facto documentation will spend the next decade debugging agents that optimized the wrong thing with extreme efficiency.

Maturity and the Path Forward

The five maturity stages are: Ad-hoc (isolated POCs, no policy, no memory, no audit), Tool-led (IDP purchased, some guardrails, but infra and context ignored), Layered (all four layers exist with named owners, implicit contracts), Contracted (explicit versioned contracts between layers, CONSTITUTION.md in Git, intent debt tracked weekly), and Self-tuning (the intelligence plane adjusts allocation automatically).

Most enterprises we assess sit at Stage 02. The most expensive jump is 02 to 03, because it requires confronting the three layers that were ignored. Organizational maturity is the minimum of the four layers, not the best-performing one.

Starting on Monday

Five actions that require no new budget:

Catalogue agents already in production. Most enterprises have more than they admit and fewer than they think.
Measure the real cost of one agent across all five vectors for at least one week.
Write the first CONSTITUTION.md for the most visible agent: 200 lines, five sections, committed to Git.
Name the owner of each of the four layers. If there is no named person, the layer does not exist.
Schedule a review in 90 days to measure intent debt. If you don’t come back to measure, nothing else matters.

The 30/60/90-day roadmap: days 1-30 establish baseline diagnosis (agent inventory, cost measurement, named owners, one pilot CONSTITUTION.md); days 31-60 make one agent fully observable (three-tier memory, per-agent RBAC via SPIFFE, MCP gateway, OTel decision spans); days 61-90 produce the first mature agent with measured intent debt and a replicable playbook. Four quarters from pilot to self-tuning platform. Start with the platform, not the agents.

O Cemitério de Agentes

O State of AI in Business 2025 do MIT encontrou que 95% dos pilotos de GenAI enterprise não entregam valor mensurável, enquanto 78% das organizações relatam usar IA em pelo menos uma função (McKinsey). Adoção quase universal de um lado, valor entregue de um dígito do outro. Esse gap entre a confiança executiva e a realidade do deployment não é um problema de tecnologia. É um problema de disciplina de engenharia.

O funil que observamos nos engajamentos enterprise por trás deste corpo de trabalho é previsível. Em um orçamento enterprise típico de 50M USD para iniciativas de IA, 42 POCs são financiados em um ano fiscal. Onze chegam à fase de piloto interno. Três chegam à produção servindo tráfego real. Um gera receita ou redução de custo mensurável (2,4% do investimento). Nesses mesmos engajamentos, organizações que trabalham com uma abordagem estruturada para as quatro camadas alcançaram uma taxa de deployment de 62%, uma ordem de magnitude acima da norma que o MIT documentou. A diferença não é o modelo nem o tooling. É a disciplina de camada.

Por que Pilotos Travam Antes da Produção

Três causas raiz explicam 80% das falhas:

Infraestrutura tratada como commodity. Cargas agênticas são stateful, ruidosas e demandam escolha de tool em runtime. Rodar em “Kubernetes genérico” funciona até três agentes. A partir de trinta, quebra previsivelmente.

Contexto tratado como detalhe. “O agente vai aprender sozinho” é a frase que precede a falha. Contexto é artefato engenheirado, com três camadas de memória, orçamento de tokens e curadoria humana semanal.

Intenção tratada como opcional. Nenhuma arquitetura sobrevive a “faça o melhor que puder” como diretiva. Agentes precisam de hierarquia de trade-offs explícita ou aprendem uma implícita. Geralmente a errada.

Um quarto fator amplifica os três: agentes benchmarked em tarefas de bug fix são 7× mais fáceis de demonstrar do que agentes executando feature work real. O Claude Opus 4.5 atinge 74,4% no SWE-bench (bugs) e apenas 11,0% no FeatureBench (features greenfield). POCs construídos em torno de demos de bug fix superestimam sistematicamente a capacidade em produção.

A Pilha de Quatro Camadas

O Context Platform Stack define quatro camadas interdependentes, cada uma com owner distinto, métrica distinta e conversação de governança distinta.

Camada 01, Cloud e Infraestrutura: Onde os agentes rodam, a que custo real. Compute, GPU, Kubernetes, padrões CNCF, observabilidade. A pergunta que esta camada responde: onde os agentes rodam, e a que custo?

Camada 02, Engenharia de Plataforma: O que os agentes podem acessar, e quem governa. IDP, golden paths, guardrails, RBAC por agente, quotas, auditor agent. A pergunta: o que os agentes podem acessar?

Camada 03, Engenharia de Contexto: O que os agentes podem saber, quando, e ao custo de quantos tokens. O padrão ACE, skills, três camadas de memória (hot, warm, cold), MCP servers. A pergunta: o que os agentes podem saber?

Camada 04, Engenharia de Intenção: O que os agentes devem otimizar, e em que hierarquia de trade-offs. CONSTITUTION.md, SDD com sintaxe EARS, intent debt, specification engineering. A pergunta: o que os agentes devem otimizar?

As camadas não são independentes. Cada camada serve a de cima e restringe a de baixo. Tratar agentes como microserviços quebra esse contrato nas quatro direções. É por isso que tantos pilotos funcionam perfeitamente no laboratório e falham em produção.

O modelo de quatro camadas tem uma defesa precisa. Fundir contexto e intenção gera drift: quando “o que o agente sabe” e “o que o agente quer” convivem no mesmo artefato, qualquer mudança de skill altera o comportamento esperado e ninguém sabe se é bug ou feature. Por outro lado, fragmentar infra e plataforma em cinco ou mais camadas dilui a responsabilidade sem ganho. Para workloads agênticos, quem controla scheduling controla escolha de tool, e essa é uma decisão só.

Camada 01: Infraestrutura

O CNCF Working Group publicou em 2025 uma arquitetura de referência de Cognitive Platform Engineering com quatro planos: o data plane (Kubernetes, GPU, containers), o intelligence plane (padrões de workload, otimização), o control plane (enforcement OPA, scheduling, quotas) e o experience plane (portais de desenvolvedor, CLIs, dashboards). O loop Sense-Reason-Act fecha sem intervenção humana: o workload muda, o intelligence plane observa, a plataforma se adapta.

A anatomia de custo de um agente em produção surpreende a maioria dos times. 42% é compute (o que todos medem). Os outros 58% são invisíveis até o bill: 28% tokens de inferência (frequentemente ignorados), 15% memória e vector DB (cresce linear com o uso), 10% rede e proxies MCP, e 5% observabilidade, quase sempre underfunded. Se o seu time rastreia só compute, a estimativa de TCO está errada por um fator de dois.

No nível do pod, uma carga agêntica em produção roda quatro containers, não um: o agent runtime (modelo, loop principal, lógica de decisão), um sidecar MCP (termina conexões MCP, aplica RBAC e rate limiting de tokens, emite audit trail), um sidecar de contexto (hot memory layer, skills resolver, CONSTITUTION.md) e um sidecar de telemetria (OTel collector, decision spans, métricas MELT). A topologia do pod é a primeira decisão de platform engineering que define se o agente vai escalar.

Camada 02: Engenharia de Plataforma

O IDP agêntico tem sete componentes. Apenas dois diferem de um IDP de desenvolvedor padrão: uma Agent API ao lado do portal humano, e RBAC por agente ao lado das policies-as-code. Sem essas duas adições, o IDP é bom para humanos e invisível para agentes.

RBAC por agente significa que cada agente carrega um SPIFFE SVID distinto (identidade criptográfica de workload), e cada permissão de recurso é uma policy em OPA. Um summarizer-agent recebe acesso de leitura ao banco de produção, direito de chamada ao modelo e quota diária de 50K tokens. Um sre-incident-agent recebe acesso de break-glass emergencial com approval gate em operações de escrita. Misturar essas permissões em um único agente (o anti-padrão “one-big-agent”) significa que o primeiro incidente compromete tudo.

Os quatro pilares da plataforma existiam antes dos agentes: golden paths (da intenção à infraestrutura), guardrails (enforcement proativo), safety nets (resposta autônoma) e manual review (fricção estratégica). O que muda é que agora todos os quatro precisam considerar o agente como primeiro consumidor, não como afterthought de um portal humano.

Camada 03: Engenharia de Contexto

Engenharia de contexto não é prompt engineering com mais passos. Prompt engineering otimiza uma única interação agente-modelo; o seu escopo é uma chamada de API, o artefato é um template de texto versionado e o horizonte temporal são minutos. Engenharia de contexto desenha a superfície completa de conhecimento de um agente ao longo do tempo; o escopo é o sistema por centenas de interações, o artefato é uma arquitetura de memória com skills curadas e MCP servers, e o horizonte temporal são meses.

As três camadas de memória:

Hot (~660 tokens): Sempre no contexto. CONSTITUTION.md, identidade do agente, princípios invioláveis, hooks de segurança. Atualizado só em deploy.
Warm (~2.000 tokens por skill ativada): Carregado sob demanda pelo classificador de tarefa. Skills especialistas, AGENTS.md por repositório, schemas de domínio. Curadas manualmente por tech leads toda semana.
Cold (~1.500 tokens por query): Nunca pré-carregado. Buscado via MCP server com RBAC por agente aplicado. Knowledge base corporativa, dados de produção, código.

Um agente bem engenheirado fica dentro de aproximadamente 4.160 tokens por invocação. Um mal engenheirado carrega tudo em hot memory e paga 30.000 tokens por tarefa trivial.

O padrão ACE (Artifacts + Context + Execution) foi aplicado a um backend enterprise em C# de 108.247 linhas ao longo de 12 semanas (283 sessões de agente, 2.801 prompts de usuário). Resultados: −32% tokens por tarefa (de 18K para 12,2K por invocação), −47% latência p95 (de 9,2s para 4,9s) e +18% taxa de conclusão de tarefas. A migração de injeção de contexto monolítico para ACE levou três semanas. Mais barato do que o retorno em tokens no primeiro mês.

Um experimento controlado em 47 repositórios internos mostrou que AGENTS.md curado por humanos reduziu o runtime em −28,64% e o consumo de tokens em −16,58%. AGENTS.md gerado por LLM adicionou +3,02% de overhead. Documentação gerada automaticamente documenta o óbvio e omite o crítico: o conhecimento tácito do time que só humanos conseguem identificar.

Camada 04: Engenharia de Intenção

Engenharia de intenção opera em quatro níveis. A maioria das organizações investe só no nível 01 (prompt writing, horizonte temporal: minutos) e deixa os níveis 02-04 implícitos. A hierarquia é cumulativa: o nível 04 só funciona se 01-03 estiverem explícitos.

Nível 01: Prompt writing
Nível 02: Context curation (skills, AGENTS.md, policies)
Nível 03: Intent design (CONSTITUTION.md, hierarquia de objetivos, hooks)
Nível 04: Specification engineering (SDD com EARS, contratos testáveis por máquina)

O CONSTITUTION.md tem cinco seções obrigatórias: Identity (quem é o agente, escopo, limites), Values and trade-offs (hierarquia de objetivos ordenada: “prefira X a Y, sempre”), Hard constraints (invioláveis: “nunca faça Z, sob nenhuma circunstância”), Protocols (procedimentos para situações recorrentes) e Escalation hooks (quando o agente deve parar e chamar um humano).

Specification Driven Development com EARS (Easy Approach to Requirements Syntax, ISO/IEC/IEEE 29148, cunhado para a Rolls-Royce em 2009) transforma requisitos ambíguos em contratos testáveis por máquina. “O sistema deve ser resiliente a falhas de rede” se torna: Quando uma chamada de rede falhar 3 vezes em 60s, o sistema deverá abrir o circuit breaker. Enquanto o circuito estiver aberto, o sistema deverá servir respostas em cache por até 30 segundos.

Intent debt mede o gap entre o que você disse que o agente deve fazer e o que ele está fazendo. A fórmula: ID = Σ(Dᵢ × Sᵢ). É a soma do drift de decisão ponderado pelo risco da decisão. Um agente tomando 3 decisões de alto risco por semana, 12 de médio risco e 80 de baixo risco acumula um intent debt de 5,0. Organizações que tratam intenção como documentação pós-fato vão passar a próxima década debugando agentes que otimizaram a coisa errada de forma extremamente eficiente.

Maturidade e o Caminho à Frente

Os cinco estágios de maturidade são: Ad-hoc (POCs isolados, sem política, sem memória, sem auditoria), Tool-led (IDP comprado, alguns guardrails, mas infra e contexto ignorados), Layered (as quatro camadas existem com owners nomeados, contratos implícitos), Contracted (contratos explícitos e versionados entre camadas, CONSTITUTION.md no Git, intent debt rastreado semanalmente) e Self-tuning (o intelligence plane ajusta a alocação automaticamente).

Aproximadamente 64% das empresas estão no estágio 02. O salto mais caro é de 02 para 03, porque exige enfrentar as três camadas que foram ignoradas. A maturidade organizacional é o mínimo das quatro camadas, não a que tem melhor prática.

Por Onde Começar na Segunda-Feira

Cinco ações que não precisam de novo orçamento:

Catalogue os agentes que já existem em produção. A maioria das empresas tem mais do que admite e menos do que acha.
Meça o custo real de um agente nos cinco vetores por pelo menos uma semana.
Escreva o primeiro CONSTITUTION.md para o agente mais visível: 200 linhas, cinco seções, commit no Git.
Nomeie o owner de cada uma das quatro camadas. Se não houver pessoa nomeada, a camada não existe. Existe wishful thinking.
Marque uma reunião em 90 dias para medir o intent debt do agente que tiver CONSTITUTION.md. Se você não voltar a medir, nada do resto importa.

O roadmap de 30/60/90 dias: os dias 1-30 estabelecem o diagnóstico baseline (inventário de agentes, medição de custo, owners nomeados, um CONSTITUTION.md piloto); os dias 31-60 tornam um agente completamente observável (memória três camadas, RBAC por agente via SPIFFE, MCP gateway, OTel decision spans); os dias 61-90 produzem o primeiro agente maduro com intent debt medido e playbook replicável. Quatro trimestres do piloto à plataforma self-tuning. Comece pela plataforma, não pelos agentes.

El Cementerio de Agentes

El State of AI in Business 2025 del MIT encontró que el 95% de los pilotos de GenAI enterprise no entregan valor medible, mientras el 78% de las organizaciones reporta usar IA en al menos una función (McKinsey). Adopción casi universal de un lado, valor entregado de un dígito del otro. Esa brecha entre la confianza ejecutiva y la realidad del deployment no es un problema tecnológico. Es un problema de disciplina de ingeniería.

El embudo que observamos en los engagements enterprise detrás de este cuerpo de trabajo es predecible. En un presupuesto enterprise típico de 50M USD para iniciativas de IA, se financian 42 POCs en un año fiscal. Once llegan a la fase de piloto interno. Tres llegan a producción sirviendo tráfico real. Uno genera ingresos o reducción de costos medible (el 2,4% de la inversión). En esos mismos engagements, las organizaciones que trabajan con un enfoque estructurado en las cuatro capas alcanzaron una tasa de deployment del 62%, un orden de magnitud por encima de la norma que el MIT documentó. La diferencia no está en el modelo ni en las herramientas. Está en la disciplina de capa.

Por Qué los Pilotos Se Detienen Antes de Producción

Tres causas raíz explican el 80% de los fallos:

Infraestructura tratada como commodity. Las cargas de trabajo agénticas son stateful, ruidosas y requieren selección de herramientas en tiempo de ejecución. Ejecutar en “Kubernetes genérico” funciona hasta tres agentes. A partir de treinta, falla de forma predecible.

Contexto tratado como detalle. “El agente aprenderá solo” es la frase que precede al fallo. El contexto es un artefacto de ingeniería con tres capas de memoria, presupuesto de tokens y curación humana semanal.

Intención tratada como opcional. Ninguna arquitectura sobrevive a “haz lo mejor que puedas” como directiva. Los agentes necesitan una jerarquía explícita de trade-offs o aprenden una implícita, generalmente incorrecta.

Un cuarto factor amplifica los tres: los agentes evaluados en tareas de corrección de bugs son 7 veces más fáciles de demostrar que los agentes que realizan trabajo real de features. Claude Opus 4.5 alcanza el 74,4% en SWE-bench (bugs) y solo el 11,0% en FeatureBench (features greenfield). Los POCs construidos en torno a demos de corrección de bugs sobreestiman sistemáticamente la capacidad en producción.

El Stack de Cuatro Capas

El Context Platform Stack define cuatro capas interdependientes, cada una con un responsable distinto, una métrica distinta y una conversación de gobernanza distinta.

Capa 01, Cloud e Infraestructura: Dónde ejecutan los agentes, a qué costo real. Compute, GPU, Kubernetes, patrones CNCF, observabilidad. La pregunta que responde esta capa: ¿dónde ejecutan los agentes y a qué costo?

Capa 02, Ingeniería de Plataforma: A qué pueden acceder los agentes y quién lo gobierna. IDP, golden paths, guardrails, RBAC por agente, cuotas, agente auditor. La pregunta: ¿a qué pueden acceder los agentes?

Capa 03, Ingeniería de Contexto: Qué pueden saber los agentes, cuándo y a qué costo en tokens. El patrón ACE, skills, tres capas de memoria (hot, warm, cold), servidores MCP. La pregunta: ¿qué pueden saber los agentes?

Capa 04, Ingeniería de Intención: Qué deben optimizar los agentes y en qué jerarquía de trade-offs. CONSTITUTION.md, SDD con sintaxis EARS, intent debt, ingeniería de especificaciones. La pregunta: ¿qué deben optimizar los agentes?

Las capas no son independientes. Cada capa sirve a la superior y restringe a la inferior. Tratar a los agentes como microservicios rompe este contrato en las cuatro direcciones, que es por qué tantos pilotos funcionan perfectamente en el laboratorio y fallan en producción.

El modelo de cuatro capas tiene una defensa precisa. Fusionar contexto e intención genera drift: cuando “lo que el agente sabe” y “lo que el agente quiere” conviven en el mismo artefacto, cualquier cambio en las skills altera el comportamiento esperado y nadie sabe si es un bug o una feature. Por otro lado, fragmentar la infraestructura y la plataforma en cinco o más capas diluye la responsabilidad sin beneficio. Para cargas de trabajo agénticas, quien controla el scheduling controla la selección de herramientas, y esa es una sola decisión.

Capa 01: Infraestructura

El CNCF Working Group publicó en 2025 una arquitectura de referencia de Cognitive Platform Engineering con cuatro planos: el data plane (Kubernetes, GPU, contenedores), el intelligence plane (patrones de workload, optimización), el control plane (enforcement OPA, scheduling, cuotas) y el experience plane (portales de desarrollador, CLIs, dashboards). El loop Sense-Reason-Act se cierra sin intervención humana: el workload cambia, el intelligence plane observa, la plataforma se adapta.

La anatomía de costos de un agente en producción sorprende a la mayoría de los equipos. El 42% es compute (lo que todos miden). El 58% restante es invisible hasta que llega la factura: 28% tokens de inferencia (frecuentemente ignorados), 15% memoria y vector DB (crece linealmente con el uso), 10% red y proxies MCP, y 5% observabilidad, casi siempre infradotada. Si tu equipo solo rastrea compute, la estimativa de TCO está desviada por un factor de dos.

A nivel de pod, una carga agéntica en producción ejecuta cuatro contenedores, no uno: el agent runtime (modelo, bucle principal, lógica de decisión), un sidecar MCP (termina conexiones MCP, aplica RBAC y rate limiting de tokens, emite audit trail), un sidecar de contexto (capa de hot memory, resolvedor de skills, CONSTITUTION.md) y un sidecar de telemetría (colector OTel, decision spans, métricas MELT). La topología del pod es la primera decisión de platform engineering que determina si el agente escalará.

Capa 02: Ingeniería de Plataforma

El IDP agéntico tiene siete componentes. Solo dos difieren de un IDP de desarrollador estándar: una Agent API junto al portal humano, y RBAC por agente junto a las políticas estándar como código. Sin estas dos adiciones, el IDP es bueno para humanos e invisible para los agentes.

RBAC por agente significa que cada agente lleva un SPIFFE SVID distinto (identidad criptográfica de workload), y cada permiso de recurso es una política en OPA. Un summarizer-agent obtiene acceso de lectura a la base de datos de producción, permisos de llamada al modelo y una cuota diaria de 50K tokens. Un sre-incident-agent obtiene acceso de break-glass de emergencia con un approval gate en operaciones de escritura. Mezclar estos permisos en un solo agente (el anti-patrón “one-big-agent”) significa que el primer incidente compromete todo.

Los cuatro pilares de la plataforma existían antes que los agentes: golden paths (de la intención a la infraestructura), guardrails (enforcement proactivo), safety nets (respuesta autónoma) y manual review (fricción estratégica). Lo que cambia es que ahora los cuatro necesitan considerar al agente como primer consumidor, no como un añadido posterior a un portal humano.

Capa 03: Ingeniería de Contexto

La ingeniería de contexto no es prompt engineering con más pasos. El prompt engineering optimiza una única interacción agente-modelo; su alcance es una llamada a la API, el artefacto es una plantilla de texto versionada y el horizonte temporal son minutos. La ingeniería de contexto diseña la superficie completa de conocimiento de un agente a lo largo del tiempo; su alcance es el sistema en cientos de interacciones, el artefacto es una arquitectura de memoria con skills curadas y servidores MCP, y el horizonte temporal son meses.

Las tres capas de memoria:

Hot (~660 tokens): Siempre en contexto. CONSTITUTION.md, identidad del agente, principios inviolables, hooks de seguridad. Se actualiza solo en deploy.
Warm (~2.000 tokens por skill activada): Cargada bajo demanda por el clasificador de tareas. Skills especialistas, AGENTS.md por repositorio, esquemas de dominio. Curadas manualmente por tech leads semanalmente.
Cold (~1.500 tokens por query): Nunca precargada. Recuperada vía servidor MCP con RBAC por agente aplicado. Base de conocimiento corporativa, datos de producción, código.

Un agente bien diseñado se mantiene dentro de aproximadamente 4.160 tokens por invocación. Uno mal diseñado carga todo en hot memory y paga 30.000 tokens por una tarea trivial.

El patrón ACE (Artifacts + Context + Execution) fue aplicado a un backend enterprise en C# de 108.247 líneas durante 12 semanas (283 sesiones de agente, 2.801 prompts de usuario). Resultados: −32% tokens por tarea (de 18K a 12,2K por invocación), −47% latencia p95 (de 9,2s a 4,9s) y +18% tasa de completación de tareas. La migración de inyección de contexto monolítica a ACE tomó tres semanas. Más barato que el ahorro en tokens del primer mes.

Un experimento controlado en 47 repositorios internos mostró que AGENTS.md curado por humanos redujo el tiempo de ejecución en −28,64% y el consumo de tokens en −16,58%. AGENTS.md generado por LLM añadió +3,02% de overhead. La documentación generada automáticamente documenta lo obvio y omite lo crítico: el conocimiento tácito del equipo que solo los humanos pueden identificar.

Capa 04: Ingeniería de Intención

La ingeniería de intención opera en cuatro niveles. La mayoría de las organizaciones solo invierte en el nivel 01 (prompt writing, horizonte temporal: minutos) y deja los niveles 02-04 implícitos. La jerarquía es acumulativa: el nivel 04 solo funciona si los niveles 01-03 son explícitos.

Nivel 01: Prompt writing
Nivel 02: Context curation (skills, AGENTS.md, políticas)
Nivel 03: Intent design (CONSTITUTION.md, jerarquía de objetivos, hooks)
Nivel 04: Specification engineering (SDD con EARS, contratos verificables por máquina)

El CONSTITUTION.md tiene cinco secciones obligatorias: Identity (quién es el agente, alcance, límites), Values and trade-offs (jerarquía de objetivos ordenada: “prefiere X a Y, siempre”), Hard constraints (inviolables: “nunca hagas Z bajo ninguna circunstancia”), Protocols (procedimientos para situaciones recurrentes) y Escalation hooks (cuándo el agente debe detenerse y llamar a un humano).

Specification Driven Development con EARS (Easy Approach to Requirements Syntax, ISO/IEC/IEEE 29148, desarrollado para Rolls-Royce en 2009) transforma requisitos ambiguos en contratos verificables por máquina. “El sistema debe ser resiliente a fallos de red” se convierte en: Cuando una llamada de red falle 3 veces en 60s, el sistema deberá abrir el circuit breaker. Mientras el circuito esté abierto, el sistema deberá servir respuestas en caché durante hasta 30 segundos.

Intent debt mide la brecha entre lo que dijiste que el agente debe hacer y lo que está haciendo realmente. La fórmula: ID = Σ(Dᵢ × Sᵢ). Es la suma del drift de decisión ponderado por el riesgo de la decisión. Un agente que toma 3 decisiones de alto riesgo por semana, 12 de riesgo medio y 80 de bajo riesgo acumula un intent debt de 5,0. Las organizaciones que tratan la intención como documentación posterior pasarán la próxima década depurando agentes que optimizaron lo incorrecto con extrema eficiencia.

Madurez y el Camino a Seguir

Los cinco estadios de madurez son: Ad-hoc (POCs aislados, sin política, sin memoria, sin auditoría), Tool-led (IDP adquirido, algunos guardrails, pero infra y contexto ignorados), Layered (las cuatro capas existen con responsables nombrados, contratos implícitos), Contracted (contratos explícitos y versionados entre capas, CONSTITUTION.md en Git, intent debt rastreado semanalmente) y Self-tuning (el intelligence plane ajusta la asignación automáticamente).

Aproximadamente el 64% de las empresas se encuentra en el estadio 02. El salto más costoso es de 02 a 03, porque exige enfrentar las tres capas que fueron ignoradas. La madurez organizacional es el mínimo de las cuatro capas, no la que tiene la mejor práctica.

Por Dónde Empezar el Lunes

Cinco acciones que no requieren presupuesto nuevo:

Inventariar los agentes que ya existen en producción. La mayoría de las empresas tiene más de los que admite y menos de los que cree.
Medir el costo real de un agente en los cinco vectores durante al menos una semana.
Escribir el primer CONSTITUTION.md para el agente más visible: 200 líneas, cinco secciones, commit en Git.
Nombrar el responsable de cada una de las cuatro capas. Si no hay una persona nombrada, la capa no existe, solo existe wishful thinking.
Programar una revisión en 90 días para medir el intent debt del agente que tenga CONSTITUTION.md. Si no vuelves a medir, nada de lo demás importa.

El roadmap de 30/60/90 días: los días 1-30 establecen el diagnóstico baseline (inventario de agentes, medición de costos, responsables nombrados, un CONSTITUTION.md piloto); los días 31-60 hacen que un agente sea completamente observable (memoria en tres capas, RBAC por agente vía SPIFFE, MCP gateway, OTel decision spans); los días 61-90 producen el primer agente maduro con intent debt medido y un playbook replicable. Cuatro trimestres del piloto a la plataforma self-tuning. Empieza por la plataforma, no por los agentes.

Numbers worth defendingNúmeros que valem defenderNúmeros que vale la pena defender

Three field metrics, three sources.Três métricas de campo, três fontes.Tres métricas de campo, tres fuentes.

Anchor every claim to a number that survives a board review. These three baselines tie back to Deloitte 2026, Gartner 2026, and the Liu et al. 2026 GitHub study.Ancore toda alegação a um número que sobreviva a revisão de board. Estes três baselines voltam a Deloitte 2026, Gartner 2026, e ao estudo Liu et al. 2026 do GitHub.Ancla cada afirmación a un número que sobreviva una revisión de board. Estos tres baselines vuelven a Deloitte 2026, Gartner 2026, y al estudio Liu et al. 2026 de GitHub.

PILOT TO PROD GAPGAP DE PILOTO PARA PRODBRECHA PILOTO A PROD

75 vs 34

percent planning vs percent transformingpercentual planejando vs percentual transformandoporcentaje planeando vs porcentaje transformando

Deloitte State of Generative AI 2026 (n=3,235): 75 percent of enterprises plan agentic AI within two years, 34 percent report it is actually transforming the business. The 41-point gap is the agent cemetery, and it widens without the four-layer discipline.Deloitte State of Generative AI 2026 (n=3.235): 75% das empresas planejam IA agêntica em dois anos, 34% reportam que de fato está transformando o negócio. O gap de 41 pontos é o cemitério de agentes e cresce sem a disciplina das quatro camadas.Deloitte State of Generative AI 2026 (n=3,235): 75% de las empresas planean IA agéntica en dos años, 34% reportan que realmente está transformando el negocio. La brecha de 41 puntos es el cementerio de agentes y crece sin la disciplina de las cuatro capas.

CODE-QUALITY DRIFTDRIFT DE QUALIDADEDRIFT DE CALIDAD

+18 / +39

percent more warnings, percent more complexity% mais warnings, % mais complexidade% más warnings, % más complejidad

CMU and GitHub research on AI-assisted code (Liu et al. 2026, 304K AI commits across 6,275 repos): static-analysis warnings up 18 percent, cognitive complexity up 39 percent without context engineering. The signal: model fluency without context discipline accumulates technical debt fast.Pesquisa CMU e GitHub em código com IA (Liu et al. 2026, 304K commits IA em 6.275 repos): warnings de análise estática +18%, complexidade cognitiva +39% sem context engineering. O sinal: fluência do modelo sem disciplina de contexto acumula débito técnico rápido.Investigación CMU y GitHub en código asistido por IA (Liu et al. 2026, 304K commits IA en 6,275 repos): warnings de análisis estático +18%, complejidad cognitiva +39% sin context engineering. La señal: fluidez del modelo sin disciplina de contexto acumula deuda técnica rápido.

AGENT FAILURE MODEMODO DE FALHA DE AGENTEMODO DE FALLA DE AGENTE

~70%

pilots that never reach production at scalepilotos que nunca chegam a produção em escalapilotos que nunca llegan a producción a escala

Industry analyst convergence (Gartner 2026, KPMG 2026, Deloitte 2026): the share of agentic AI pilots that fail to reach a second business unit. Cause is rarely the model. Cause is missing intent specs, weak context layer, and platform that did not exist when the pilot was built.Convergência de analistas de indústria (Gartner 2026, KPMG 2026, Deloitte 2026): fatia de pilotos de IA agêntica que não chegam a uma segunda unidade de negócio. A causa raramente é o modelo. A causa é spec de intent ausente, camada de contexto fraca e plataforma que não existia quando o piloto foi construído.Convergencia de analistas de industria (Gartner 2026, KPMG 2026, Deloitte 2026): porcentaje de pilotos de IA agéntica que no llegan a una segunda unidad de negocio. La causa rara vez es el modelo. La causa es spec de intent ausente, capa de contexto débil y plataforma que no existía cuando se construyó el piloto.

References Referências Referencias

The sources behind the claims on this page. Every link is public and verifiable. As fontes por trás das afirmações desta página. Todos os links são públicos e verificáveis. Las fuentes detrás de las afirmaciones de esta página. Todos los enlaces son públicos y verificables.

Keep exploring Continue explorando Sigue explorando

Layer 02 Agentic DevOps PlatformPlataforma Agentic DevOpsPlataforma Agentic DevOps The platform that implements layer 02 of this stack.A plataforma que implementa a camada 02 deste stack.La plataforma que implementa la capa 02 de este stack. → Layer 04 · deep dive Semantic Context LayerSemantic Context LayerSemantic Context Layer The deep dive into deterministic semantic context for layer 04.O deep dive em contexto semântico determinístico para a camada 04.El deep dive en contexto semántico determinístico para la capa 04. → Cross-cutting Token ManagementGestão de TokensGestión de Tokens How layer 03 context decisions affect token cost across the stack.Como decisões de contexto da camada 03 afetam custo de token em todo o stack.Cómo las decisiones de contexto de la capa 03 afectan el costo de token en todo el stack. → Migration Legacy ModernizationModernização de LegadoModernización de Legado How legacy code becomes context for agents on this stack.Como código legado vira contexto para agentes neste stack.Cómo código legado se convierte en contexto para agentes en este stack. →

Paula Silva | AI-Native Software Engineer

From data center transformation to agentic engineering. Da transformação de data center à engenharia agêntica. De la transformación de data center a la ingeniería agéntica.

Agentic DevOps Hub

Back to the hubVoltar ao hubVolver al hubAgentic DevOps HubAgentic DevOps HubAgentic DevOps Hub

© 2026 Paula Silva · All rights reserved© 2026 Paula Silva · Todos os direitos reservados© 2026 Paula Silva · Todos los derechos reservados Library · all downloads Biblioteca · todos os downloads Biblioteca · todas las descargas