Platform

Full Agentic Engineering PlatformPlataforma de Engenharia Agêntica CompletaPlataforma de Ingeniería Agéntica Completa

Six engineering disciplines (Cloud, Platform, Context, Intent, Harness, and Token Economy) unified into a single production-grade foundation that keeps agents alive beyond the pilot stage.Seis disciplinas de engenharia (Cloud, Platform, Context, Intent, Harness e Token Economy) unificadas em uma fundação de nível produtivo que mantém agentes vivos além da fase de piloto.Seis disciplinas de ingeniería (Cloud, Platform, Context, Intent, Harness y Token Economy) unificadas en una fundación de nivel productivo que mantiene a los agentes vivos más allá de la fase piloto.

Last updated July 2, 2026 Última atualização 2 de julho de 2026 Última actualización 2 de julio de 2026

40%

Enterprise apps with task-specific AI agents by 2026 (Gartner)Apps corporativos com agentes de IA específicos até 2026 (Gartner)Apps corporativas con agentes de IA específicos para 2026 (Gartner)

75%

Enterprises planning agentic AI in two years (Deloitte 3,235 resp.)Empresas planejando IA agêntica em dois anos (Deloitte 3.235 resp.)Empresas planeando IA agéntica en dos años (Deloitte 3.235 resp.)

+39%

Cognitive complexity introduced by ungoverned agents (CMU AIDev)Complexidade cognitiva por agentes sem governança (CMU AIDev)Complejidad cognitiva por agentes sin gobernanza (CMU AIDev)

30-70%

Token cost reduction with the disciplines appliedRedução de custo de token com as disciplinas aplicadasReducción de costo de token con las disciplinas aplicadas

Stack layer Camada do stack Capa del stack Platform engineering Platform engineering Platform engineering Related Relacionados Relacionados Agentic DevOps Platform Open Horizons Three Horizons (Red Hat)

Choose your format Escolha seu formato Elige tu formato

Read the article below, present the deck, or go deep with the playbook. The same thesis, calibrated to how you need to engage with it. Leia o artigo abaixo, apresente o deck ou aprofunde com o playbook. A mesma tese, calibrada para a forma como você precisa engajar. Lee el artículo abajo, presenta el deck o profundiza con el playbook. La misma tesis, calibrada para cómo necesitas interactuar.

Playbook · v1.0.0

Multi-page playbook ↗ Playbook multi-página ↗ Playbook multipágina ↗

Long-form, chaptered reference with search and dark mode. Referência completa em capítulos, com busca e modo escuro. Referencia extensa en capítulos, con búsqueda y modo oscuro.

EN · PT-BR · ES PDF EN PT ES

Deck · Platform

Full Agentic Engineering Platform ↗

Presentation deck, public and notes-free, trilingual with live language switch. Deck de apresentação, público e sem notas, trilíngue com troca de idioma ao vivo. Deck de presentación, público y sin notas, trilingüe con cambio de idioma en vivo.

v1.0.0 Download PDF Baixar PDF Descargar PDF EN ES PT

What's inside O que tem dentro Qué hay dentro

Six disciplines. One platform.Seis disciplinas. Uma plataforma.Seis disciplinas. Una plataforma.

The full Agentic DevOps Platform stacks six disciplines. Each is necessary, none is sufficient. Skip one and the agent cemetery grows. The order matters: infrastructure carries the workload, platform engineering governs it, context and intent steer it, harness operates it, and the token economy funds it.A plataforma Agentic DevOps completa empilha seis disciplinas. Cada uma é necessária, nenhuma é suficiente. Pule uma e o cemitério de agentes cresce. A ordem importa: a infraestrutura carrega a carga, platform engineering governa, contexto e intenção direcionam, harness opera, e a economia de tokens financia.La plataforma Agentic DevOps completa apila seis disciplinas. Cada una es necesaria, ninguna es suficiente. Salta una y el cementerio de agentes crece. El orden importa: la infraestructura carga el trabajo, platform engineering la gobierna, contexto e intención la dirigen, harness la opera, y la economía de tokens la financia.

Cloud infrastructure foundationFundação cloud e infraestruturaFundación cloud e infraestructura

Kubernetes as the standard AI platform, MCP as the protocol layer, autonomous infrastructure, the Cognitive Platform Engineering 4-plane architecture, IaC for agentic systems, supply-chain security.Kubernetes como plataforma de IA padrão, MCP como camada de protocolo, infraestrutura autônoma, arquitetura CPE de 4 planos, IaC para sistemas agênticos, segurança de cadeia de suprimentos.Kubernetes como plataforma de IA estándar, MCP como capa de protocolo, infraestructura autónoma, arquitectura CPE de 4 planos, IaC para sistemas agénticos, seguridad de cadena de suministro.

Platform engineering governanceGovernança de platform engineeringGobernanza de platform engineering

Internal Developer Platforms, golden paths, guardrails, MCP server registries, agent RBAC. The essential governance layer for AI agents in production.Plataformas internas de desenvolvimento, golden paths, guardrails, registros de servidores MCP, RBAC para agentes. A camada de governança essencial para agentes de IA em produção.Plataformas internas de desarrollo, golden paths, guardrails, registros de servidores MCP, RBAC para agentes. La capa de gobernanza esencial para agentes de IA en producción.

Context engineeringEngenharia de contextoIngeniería de contexto

The discipline of structuring everything an agent needs at inference time. Memory tiers, skills, MCP protocols, AGENTS.md, RAG, token economics. From context rot to compaction.A disciplina de estruturar tudo que o agente precisa no momento da inferência. Tiers de memória, skills, protocolos MCP, AGENTS.md, RAG, economia de token. De context rot a compaction.La disciplina de estructurar todo lo que el agente necesita en inferencia. Tiers de memoria, skills, protocolos MCP, AGENTS.md, RAG, economía de token. De context rot a compaction.

Intent engineeringEngenharia de intençãoIngeniería de intención

Why context alone is insufficient. Encoding goals, values, and trade-off hierarchies into agent infrastructure. Specification engineering, SDD, CONSTITUTION.md, governance.Por que contexto sozinho não basta. Codificar objetivos, valores e hierarquias de trade-off na infraestrutura do agente. Specification engineering, SDD, CONSTITUTION.md, governança.Por qué contexto solo no basta. Codificar objetivos, valores y jerarquías de trade-off en la infraestructura del agente. Specification engineering, SDD, CONSTITUTION.md, gobernanza.

Harness engineeringEngenharia de harnessIngeniería de harness

The discipline that turns the framework into an operating model. Two implementation paths: Three Horizons Accelerator and Open Horizons. Where the four layers become a production system.A disciplina que transforma o framework em modelo operacional. Dois caminhos de implementação: Three Horizons Accelerator e Open Horizons. Onde as quatro camadas viram sistema de produção.La disciplina que convierte el framework en modelo operativo. Dos caminos de implementación: Three Horizons Accelerator y Open Horizons. Donde las cuatro capas se vuelven sistema en producción.

Integration, FinOps, FoundryIntegração, FinOps, FoundryIntegración, FinOps, Foundry

How the layers integrate in practice. Maturity model, model routing, ten principles, persona quick-starts. FinOps for AI: budgets, alerts, FOCUS export. Azure AI Foundry: PTU vs PAYG, content safety, AAD/RBAC.Como as camadas se integram na prática. Modelo de maturidade, roteamento de modelos, dez princípios, quick-starts por persona. FinOps para IA: orçamentos, alertas, FOCUS export. Azure AI Foundry: PTU vs PAYG, content safety, AAD/RBAC.Cómo se integran las capas en la práctica. Modelo de madurez, ruteo de modelos, diez principios, quick-starts por persona. FinOps para IA: presupuestos, alertas, FOCUS export. Azure AI Foundry: PTU vs PAYG, content safety, AAD/RBAC.

The cemetery problem

75% of enterprises plan agentic AI. Only 34% report deep transformation. The gap is not ambition or budget. It is engineering. Pilot agents fail to reach production for one consistent reason: they lack a coherent multi-layer engineering foundation. The cemetery grows because layers get skipped.

Ungoverned agents add +39% cognitive complexity to engineering organizations (CMU AIDev). That number captures the downstream cost of shortcuts taken in a hurry to ship.

Three debts that compound

Technical debt is familiar. Two new forms make it worse.

Technical debt accumulates the usual way: patches, fragile dependencies, brittle tests. A study by Liu et al. analyzed 304,362 AI-generated commits across 6,275 repositories and found higher shares of requirement and test debt versus human-written code. AI assistance does not reduce debt automatically; it changes its shape.

Cognitive debt is subtler and more dangerous. Developers accept AI-generated code without understanding it. Storey calls it cognitive surrender. The codebase becomes orphaned knowledge: nobody can modify it safely because nobody understands why it works.

Intent debt is the newest and most insidious. The agent was built for metric X under constraint Y with hidden assumption Z. When production conditions shift, the agent optimizes for the wrong thing. It is not broken. It was never fully specified.

The six-discipline stack

A stack that survives production covers six disciplines in sequence:

Layer	Name	Core tools
01	Cloud: Infrastructure foundation	K8s, MCP, IaC
02	Platform: Governance layer	IDP, golden paths
03	Context: What the agent knows	Memory, MCP, RAG
04	Intent: What the agent should do	SDD, CONSTITUTION
05	Harness: Operating model	Three Horizons
06	Token Economy: Pays the bill	FinOps, Foundry

Cloud foundation: Kubernetes and MCP

Kubernetes has moved from niche to default for AI workloads. The CNCF survey confirms the trend: GPU operators, KServe, KubeRay, and vLLM operators all converge on K8s as the substrate. The reasons are practical: GPU scheduling, autoscaling, and multi-tenancy.

What changes for agents is the workload profile. Agentic sessions are not stateless web requests. They live for hours, hold KV cache, and fan out to subagents. Pod design, network policies, and autoscaling all require rethinking.

The Cognitive Platform Engineering (CPE) reference architecture organizes the stack into four planes: a Data Plane running agent workloads and MCP servers on GPU-backed pods; a Control Plane handling orchestration via K8s API, GitOps, and Argo; a Cognition Plane carrying routing, policy, and intent artifacts (Spec-Kit, CONSTITUTION); and an Observability layer collecting spans, logs, and cost data via OpenTelemetry and Application Insights.

MCP resolves the integration explosion at the protocol layer. Without a standard, every agent integrates every tool bilaterally. That means N×M integrations. MCP collapses that to N+M. Its three primitives are tools (side effects), resources (data exposure), and prompts (interaction shaping). A platform-owned MCP gateway centralizes auth, scope, and telemetry. Servers behind it carry policy, rate limits, and content classification.

Platform engineering: golden paths and identity

Without golden paths, every team rebuilds the same controls. Each agent ships with its own auth, telemetry, and secret handling. Governance becomes a paper exercise.

With golden paths (Backstage templates, IDP scaffolds, MCP server registries), security and FinOps controls are baked in. Teams are compliant by default and opt out only when they have a specific reason to.

Identity is the other foundation. Agents need SPIFFE workload identities, not service accounts. Every agent gets a SPIFFE ID that propagates from caller to MCP server to data source. Tokens are minted per session with narrow scope and short TTL. The agent cannot exceed what the user could do. Policy as code (OPA, Cedar) lives in repositories, versions with the code, and receives peer review like any other infrastructure artifact. Audit logs are queryable without engineering help.

Context engineering and intent engineering

Context and intent solve different problems. Conflating them is a common failure mode.

Context engineering is the discipline of assembling the smallest set of high-signal tokens that maximizes agent output quality. The utility curve is concave: underfilling leaves out facts the agent needs, but overfilling past the peak degrades output through context rot. Six techniques compound on each other:

Compaction: structured compression of session history by the model itself, a 22.7% reduction (arXiv 2601.07190)
Tool result clearing: old tool results stay in context unless explicitly cleared, creating recurring cost for content already consumed
E-mem subagents: hierarchical memory across subagents where the parent keeps summaries and children carry detail, a 70% token reduction (arXiv 2601.21714)
Persistent memory: long-lived memory store outside the context window, 11x compression on retrieval (arXiv 2603.13017)
SkillReducer: programmatic reduction of skill files, 39% body reduction and 48% description reduction (arXiv 2603.29919)
Prompt caching: reuse of KV cache from a stable prefix, up to 90% input savings

Intent engineering addresses a different gap. A well-contextualized agent that lacks specified intent will optimize for the wrong outcome. The Spec-Kit makes intent legible through three artifacts: CONSTITUTION.md (non-negotiable values and trade-off hierarchies, not advice but constraints), SPECIFICATION.md (goals, success criteria, and anti-goals reviewed before code is written), and IMPLEMENTATION_PLAN.md (the plan as a version-controlled artifact, not a transient thought).

Harness engineering: the operating model

The four layers describe what to build. The harness wraps them in cadence, ownership, evidence, and review. Without it, the framework lives in slides. With it, it ships.

Organizations choose one of two paths:

Three Horizons Accelerator is Microsoft-aligned and opinionated. It pre-wires Azure AI Foundry, GitHub Copilot Enterprise, Microsoft 365 Copilot, and Teams with observability, FinOps, and identity. Faster start, narrower path.

Open Horizons uses the CNCF stack, a multi-model gateway, OpenTelemetry, and FOCUS. More integration work, more sovereignty, more model flexibility. The same harness disciplines apply.

Maturity progresses through five levels: L1 Chaos (pilots, no stack), L2 Guarded (first IDP, basic policy, MCP gateway), L3 Contextual (skills, MCP, RAG, prompt caching), L4 Intentional (Spec-Kit, audits, chargeback), L5 Harnessed (full operating model, Three Horizons live).

Ten principles bind the layers. Among the most actionable: treat tokens as a finite resource with budgets per session, agent, and repository; pre-compute compiler-grade context in CI rather than per task; pick the smallest model that passes the eval; prefer workflows over agents unless adaptive control genuinely adds value; and run harness rituals: weekly cost review, monthly intent review, quarterly maturity exit.

Token economy: FinOps for AI

On June 1, 2026, GitHub Copilot stopped charging per request. Premium Request Units retired. GitHub AI Credits took over: 1 AI Credit equals US$0.01. Input, output, and cached tokens are accounted at the published API rate of each model. Cost is now per work performed, not per user intent.

For a 500-developer organization at US$19/seat (baseline US$9,500/month), pilots without discipline observed 50-100% overage after the PRU transition. With discipline applied, the same organization achieves 25-45% reduction over baseline within 60-90 days, compounding to 40-70% reduction on agentic workloads. For organizations with 5,000+ developers, annual savings exceed US$1 million. The payback period is under 60 days.

The FinOps cycle has three phases: Inform (showback per session, agent, repo, and team via FOCUS export and Power BI or Grafana dashboards), Optimize (eight applied patterns delivering 40-70% reduction), and Operate (chargeback to teams, anomaly detection on session cost, quarterly budget review).

The eight optimization patterns are: dynamic routing by complexity (Haiku for trivia, Sonnet for code, Opus for plans), hierarchical caching at three levels, subagent fan-out with E-mem hierarchy, plan-then-execute with a cheaper planning model, semantic cache using embedding similarity, tool composition over catalog growth, lean MCP with progressive disclosure of schemas, and Spec-Kit driven custom agent SDD.

Five anti-patterns to eliminate: always picking the largest model, treating an agent as a workflow when deterministic control suffices, pasting the whole repository into context, skipping prompt caching, and skipping the harness entirely.

The closing argument

The difference between the cemetery and the platform is not talent. It is applied discipline. Six disciplines, one platform, production agents that survive.

O problema do cemitério

75% das empresas planejam IA agêntica. Apenas 34% relatam transformação profunda. A lacuna não é de ambição nem de orçamento. É de engenharia. Pilotos de agente falham em chegar à produção por uma razão consistente: falta uma fundação de engenharia coerente em múltiplas camadas. O cemitério cresce porque camadas são puladas.

Agentes sem governança adicionam +39% de complexidade cognitiva às organizações de engenharia (CMU AIDev). Esse número captura o custo downstream dos atalhos tomados às pressas para entregar.

Três dívidas que se acumulam

Dívida técnica é familiar. Duas formas novas pioram tudo.

Dívida técnica acumula do jeito habitual: patches, dependências frágeis, testes quebradiços. Liu et al. analisaram 304.362 commits gerados por IA em 6.275 repositórios e encontraram maior proporção de dívida de requisitos e testes versus código humano. Assistência de IA não reduz dívida automaticamente; muda sua forma.

Dívida cognitiva é mais sutil e mais perigosa. Devs aceitam código gerado por IA sem entender. Storey chama de rendição cognitiva. A base de código vira conhecimento órfão: ninguém modifica com segurança porque ninguém entende por que funciona.

Dívida de intenção é a mais nova e mais insidiosa. O agente foi feito para métrica X sob restrição Y com premissa oculta Z. Quando produção muda, o agente otimiza para a coisa errada. Não está quebrado. Só nunca foi especificado por completo.

A pilha de seis disciplinas

Uma pilha que sobrevive em produção cobre seis disciplinas em sequência:

Camada	Nome	Ferramentas centrais
01	Cloud: Fundação de infraestrutura	K8s, MCP, IaC
02	Platform: Camada de governança	IDP, golden paths
03	Context: O que o agente sabe	Memória, MCP, RAG
04	Intent: O que o agente deve fazer	SDD, CONSTITUTION
05	Harness: Modelo operacional	Three Horizons
06	Token Economy: Paga a conta	FinOps, Foundry

Fundação cloud: Kubernetes e MCP

O Kubernetes passou de nicho para padrão em cargas de IA. A pesquisa CNCF confirma a tendência: GPU operators, KServe, KubeRay e vLLM operators todos convergem para K8s como substrato. As razões são práticas: escalonamento de GPU, autoscaling e multi-tenancy.

O que muda para agentes é o perfil da carga. Sessões agênticas não são requests web stateless. Duram horas, mantêm KV cache e fazem fan-out para subagentes. Design de pod, network policies e autoscaling precisam ser repensados.

A arquitetura de referência CPE (Cognitive Platform Engineering) organiza a pilha em quatro planos: um Data Plane executando workloads de agente e servidores MCP em pods com GPU; um Control Plane orquestrando via K8s API, GitOps e Argo; um Cognition Plane carregando roteamento, política e artefatos de intenção (Spec-Kit, CONSTITUTION); e uma camada de Observabilidade coletando spans, logs e dados de custo via OpenTelemetry e Application Insights.

MCP resolve a explosão de integrações na camada de protocolo. Sem um padrão, cada agente integra cada ferramenta bilateralmente. Isso dá N×M integrações. MCP colapsa isso para N+M. Suas três primitivas são ferramentas (efeitos colaterais), recursos (exposição de dados) e prompts (moldagem de interação). Um gateway MCP de plataforma centraliza auth, escopo e telemetria. Servidores atrás dele carregam política, rate limits e classificação de conteúdo.

Platform engineering: golden paths e identidade

Sem golden paths, cada time reconstrói os mesmos controles. Cada agente entrega com auth próprio, telemetria própria e manuseio de segredo próprio. Governança vira exercício de papel.

Com golden paths (templates Backstage, scaffolds IDP, registros de servidor MCP), controles de segurança e FinOps são embutidos. Times são compliant por padrão e optam fora apenas quando têm razão específica para isso.

Identidade é a outra fundação. Agentes precisam de identidades de workload SPIFFE, não de service accounts. Cada agente recebe um SPIFFE ID que propaga do chamador ao servidor MCP à fonte de dados. Tokens são criados por sessão com escopo estreito e TTL curto. O agente não pode exceder o que o usuário poderia fazer. Política como código (OPA, Cedar) vive em repositórios, versiona com o código e recebe revisão de pares como qualquer outro artefato de infraestrutura. Logs de auditoria são consultáveis sem ajuda de engenharia.

Context engineering e intent engineering

Contexto e intenção resolvem problemas diferentes. Confundi-los é um modo de falha comum.

Context engineering é a disciplina de montar o menor conjunto de tokens de alto sinal que maximiza a qualidade da saída do agente. A curva de utilidade é côncava: subabastecer deixa de fora fatos que o agente precisa, mas ultrapassar o pico degrada o output via context rot. Seis técnicas se acumulam:

Compactação: compressão estruturada do histórico de sessão pelo próprio modelo, uma redução de 22.7% (arXiv 2601.07190)
Limpeza de tool result: resultados antigos de tools ficam no contexto a menos que limpos, gerando custo recorrente por conteúdo já consumido
Subagentes E-mem: memória hierárquica entre subagentes onde o pai mantém resumos e os filhos carregam detalhe, uma redução de 70% em tokens (arXiv 2601.21714)
Memória persistente: store de longa vida fora da janela de contexto, compressão 11x na recuperação (arXiv 2603.13017)
SkillReducer: redução programática de arquivos de skill, 39% de redução no corpo e 48% na descrição (arXiv 2603.29919)
Prompt caching: reuso de KV cache de prefixo estável, até 90% de economia em input

Intent engineering aborda uma lacuna diferente. Um agente bem contextualizado que não tem intenção especificada vai otimizar para o resultado errado. O Spec-Kit torna intenção legível através de três artefatos: CONSTITUTION.md (valores e hierarquias de trade-off não negociáveis, não conselhos e sim restrições), SPECIFICATION.md (objetivos, critérios de sucesso e anti-objetivos revisados antes de qualquer código) e IMPLEMENTATION_PLAN.md (o plano como artefato versionado, não como pensamento transitório).

Harness engineering: o modelo operacional

As quatro camadas descrevem o que construir. O harness as envolve em cadência, propriedade, evidência e revisão. Sem ele, o framework vive em slides. Com ele, entra em produção.

As organizações escolhem um de dois caminhos:

Three Horizons Accelerator é alinhado à Microsoft e opinativo. Pré-conecta Azure AI Foundry, GitHub Copilot Enterprise, Microsoft 365 Copilot e Teams com observabilidade, FinOps e identidade. Início mais rápido, caminho mais estreito.

Open Horizons usa o stack CNCF, gateway multi-modelo, OpenTelemetry e FOCUS. Mais trabalho de integração, mais soberania, mais flexibilidade de modelo. As mesmas disciplinas de harness se aplicam.

A maturidade progride em cinco níveis: L1 Chaos (pilotos, sem stack), L2 Guarded (primeiro IDP, política básica, gateway MCP), L3 Contextual (skills, MCP, RAG, prompt caching), L4 Intentional (Spec-Kit, auditorias, chargeback), L5 Harnessed (modelo operacional completo, Three Horizons em produção).

Dez princípios unem as camadas. Entre os mais acionáveis: trate tokens como recurso finito com orçamentos por sessão, agente e repositório; pré-compute contexto qualidade-compilador no CI em vez de por tarefa; escolha o menor modelo que passa no eval; prefira workflows a agentes a menos que controle adaptativo genuinamente agregue valor; e execute rituais de harness: revisão semanal de custo, revisão mensal de intenção, saída trimestral de maturidade.

Economia de tokens: FinOps para IA

Em 1 de junho de 2026, o GitHub Copilot parou de cobrar por request. Os Premium Request Units se aposentaram. GitHub AI Credits assumiram: 1 AI Credit equivale a US$0,01. Tokens de input, output e cached são contabilizados na taxa de API publicada de cada modelo. O custo passa a ser por trabalho executado, não por intenção do usuário.

Para uma organização de 500 devs a US$19/assento (baseline de US$9.500/mês), pilotos sem disciplina observaram 50-100% de overage após a transição do PRU. Com disciplina aplicada, a mesma organização alcança 25-45% de redução vs baseline em 60-90 dias, acumulando até 40-70% de redução em cargas agênticas. Para organizações com 5.000+ devs, a economia anual passa de US$1 milhão. O payback é inferior a 60 dias.

O ciclo FinOps tem três fases: Inform (showback por sessão, agente, repo e time via export FOCUS e dashboards Power BI ou Grafana), Optimize (oito padrões aplicados entregando 40-70% de redução) e Operate (chargeback para times, detecção de anomalia em custo de sessão, revisão trimestral de orçamento).

Os oito padrões de otimização são: roteamento dinâmico por complexidade (Haiku para trivia, Sonnet para código, Opus para planos), cache hierárquico em três níveis, subagent fan-out com hierarquia E-mem, plan-then-execute com modelo de planejamento mais barato, cache semântico por similaridade de embedding, composição de tools em vez de crescimento do catálogo, MCP enxuto com disclosure progressivo de schemas e SDD de agente custom guiado por Spec-Kit.

Cinco anti-padrões para eliminar: sempre escolher o maior modelo, tratar agente como workflow quando controle determinístico basta, colar o repositório inteiro no contexto, pular prompt caching e pular o harness por inteiro.

A conclusão

A diferença entre o cemitério e a plataforma não é talento. É disciplina aplicada. Seis disciplinas. Uma plataforma. Agentes que sobrevivem em produção.

El problema del cementerio

El 75% de las empresas planea IA agéntica. Solo el 34% reporta transformación profunda. La brecha no es de ambición ni de presupuesto. Es de ingeniería. Los pilotos de agentes fallan en llegar a producción por una razón consistente: les falta una fundación de ingeniería coherente en múltiples capas. El cementerio crece porque se saltan capas.

Los agentes sin gobernanza añaden +39% de complejidad cognitiva a las organizaciones de ingeniería (CMU AIDev). Ese número captura el costo downstream de los atajos tomados con prisas para entregar.

Tres deudas que se acumulan

La deuda técnica es familiar. Dos formas nuevas la empeoran.

Deuda técnica acumula de la manera habitual: parches, dependencias frágiles, tests quebradizos. Liu et al. analizaron 304.362 commits generados por IA en 6.275 repositorios y encontraron mayor proporción de deuda de requisitos y tests versus código humano. La asistencia de IA no reduce la deuda automáticamente; cambia su forma.

Deuda cognitiva es más sutil y más peligrosa. Los devs aceptan código generado por IA sin entenderlo. Storey la llama rendición cognitiva. La base de código se convierte en conocimiento huérfano: nadie puede modificarla con seguridad porque nadie entiende por qué funciona.

Deuda de intención es la más nueva y más insidiosa. El agente fue construido para métrica X bajo restricción Y con premisa oculta Z. Cuando las condiciones de producción cambian, el agente optimiza para lo equivocado. No está roto. Simplemente nunca se especificó por completo.

La pila de seis disciplinas

Una pila que sobrevive en producción cubre seis disciplinas en secuencia:

Capa	Nombre	Herramientas centrales
01	Cloud: Fundación de infraestructura	K8s, MCP, IaC
02	Platform: Capa de gobernanza	IDP, golden paths
03	Context: Lo que el agente sabe	Memoria, MCP, RAG
04	Intent: Lo que el agente debe hacer	SDD, CONSTITUTION
05	Harness: Modelo operativo	Three Horizons
06	Token Economy: Paga la factura	FinOps, Foundry

Fundación cloud: Kubernetes y MCP

Kubernetes ha pasado de nicho a estándar para cargas de trabajo de IA. La encuesta CNCF confirma la tendencia: GPU operators, KServe, KubeRay y vLLM operators convergen todos en K8s como sustrato. Las razones son prácticas: scheduling de GPU, autoscaling y multi-tenancy.

Lo que cambia para los agentes es el perfil de la carga. Las sesiones agénticas no son requests web sin estado. Viven durante horas, mantienen KV cache y hacen fan-out a subagentes. El diseño de pods, las políticas de red y el autoscaling requieren replanteamiento.

La arquitectura de referencia CPE (Cognitive Platform Engineering) organiza la pila en cuatro planos: un Data Plane ejecutando workloads de agente y servidores MCP en pods con GPU; un Control Plane orquestando mediante K8s API, GitOps y Argo; un Cognition Plane llevando enrutamiento, política y artefactos de intención (Spec-Kit, CONSTITUTION); y una capa de Observabilidad que recopila spans, logs y datos de costo mediante OpenTelemetry y Application Insights.

MCP resuelve la explosión de integraciones en la capa de protocolo. Sin un estándar, cada agente integra cada herramienta bilateralmente. Eso da N×M integraciones. MCP lo colapsa a N+M. Sus tres primitivas son herramientas (efectos secundarios), recursos (exposición de datos) y prompts (moldeo de interacción). Un gateway MCP de plataforma centraliza auth, alcance y telemetría. Los servidores detrás de él llevan políticas, rate limits y clasificación de contenido.

Platform engineering: golden paths e identidad

Sin golden paths, cada equipo reconstruye los mismos controles. Cada agente se entrega con su propio auth, su propia telemetría y su propio manejo de secretos. La gobernanza se convierte en un ejercicio de papel.

Con golden paths (templates de Backstage, scaffolds IDP, registros de servidor MCP), los controles de seguridad y FinOps están integrados de fábrica. Los equipos son conformes por defecto y solo optan por salir cuando tienen una razón específica para hacerlo.

La identidad es la otra fundación. Los agentes necesitan identidades de workload SPIFFE, no service accounts. Cada agente recibe un SPIFFE ID que se propaga desde el llamador al servidor MCP hasta la fuente de datos. Los tokens se acuñan por sesión con alcance estrecho y TTL corto. El agente no puede exceder lo que el usuario podría hacer. La política como código (OPA, Cedar) vive en repositorios, versiona con el código y recibe revisión de pares como cualquier otro artefacto de infraestructura. Los logs de auditoría son consultables sin ayuda de ingeniería.

Context engineering e intent engineering

El contexto y la intención resuelven problemas distintos. Confundirlos es un modo de fallo común.

Context engineering es la disciplina de ensamblar el conjunto más pequeño de tokens de alta señal que maximiza la calidad del output del agente. La curva de utilidad es cóncava: subabastecer omite hechos que el agente necesita, pero sobrepasar el pico degrada el output por context rot. Seis técnicas se acumulan entre sí:

Compactación: compresión estructurada del historial de sesión por el propio modelo, una reducción del 22.7% (arXiv 2601.07190)
Limpieza de tool result: los resultados antiguos de herramientas permanecen en contexto a menos que se limpien explícitamente, generando pago recurrente por contenido ya consumido
Subagentes E-mem: memoria jerárquica entre subagentes donde el padre mantiene resúmenes y los hijos llevan detalle, una reducción del 70% en tokens (arXiv 2601.21714)
Memoria persistente: store de larga vida fuera de la ventana de contexto, compresión 11x en recuperación (arXiv 2603.13017)
SkillReducer: reducción programática de archivos de skill, 39% de reducción en cuerpo y 48% en descripción (arXiv 2603.29919)
Prompt caching: reutilización del KV cache de un prefijo estable, hasta el 90% de ahorro en input

Intent engineering aborda una brecha distinta. Un agente bien contextualizado que carece de intención especificada optimizará para el resultado equivocado. El Spec-Kit hace legible la intención mediante tres artefactos: CONSTITUTION.md (valores y jerarquías de trade-off no negociables, no consejos sino restricciones), SPECIFICATION.md (objetivos, criterios de éxito y anti-objetivos revisados antes de escribir código) e IMPLEMENTATION_PLAN.md (el plan como artefacto versionado, no como pensamiento transitorio).

Harness engineering: el modelo operativo

Las cuatro capas describen qué construir. El harness las envuelve en cadencia, propiedad, evidencia y revisión. Sin él, el framework vive en diapositivas. Con él, llega a producción.

Las organizaciones eligen uno de dos caminos:

Three Horizons Accelerator está alineado con Microsoft y es opinionado. Pre-conecta Azure AI Foundry, GitHub Copilot Enterprise, Microsoft 365 Copilot y Teams con observabilidad, FinOps e identidad. Inicio más rápido, camino más estrecho.

Open Horizons usa el stack CNCF, un gateway multi-modelo, OpenTelemetry y FOCUS. Más trabajo de integración, más soberanía, más flexibilidad de modelo. Las mismas disciplinas de harness aplican.

La madurez avanza en cinco niveles: L1 Chaos (pilotos, sin stack), L2 Guarded (primer IDP, política básica, gateway MCP), L3 Contextual (skills, MCP, RAG, prompt caching), L4 Intentional (Spec-Kit, auditorías, chargeback), L5 Harnessed (modelo operativo completo, Three Horizons en producción).

Diez principios unen las capas. Entre los más accionables: tratar los tokens como recurso finito con presupuestos por sesión, agente y repositorio; precomputar contexto de calidad compilador en CI en vez de por tarea; elegir el modelo más pequeño que pasa el eval; preferir workflows a agentes a menos que el control adaptativo agregue valor genuinamente; y ejecutar rituales de harness: revisión semanal de costos, revisión mensual de intención, salida trimestral de madurez.

Economía de tokens: FinOps para IA

El 1 de junio de 2026, GitHub Copilot dejó de cobrar por request. Los Premium Request Units se retiraron. GitHub AI Credits tomaron el control: 1 AI Credit equivale a US$0,01. Los tokens de input, output y cached se contabilizan a la tarifa de API publicada de cada modelo. El costo pasa a ser por trabajo realizado, no por intención del usuario.

Para una organización de 500 devs a US$19/asiento (baseline de US$9.500/mes), los pilotos sin disciplina observaron 50-100% de exceso tras la transición del PRU. Con disciplina aplicada, la misma organización alcanza una reducción del 25-45% sobre baseline en 60-90 días, componiéndose hasta 40-70% de reducción en cargas agénticas. Para organizaciones con más de 5.000 devs, el ahorro anual supera US$1 millón. El payback es inferior a 60 días.

El ciclo FinOps tiene tres fases: Inform (showback por sesión, agente, repo y equipo mediante export FOCUS y dashboards Power BI o Grafana), Optimize (ocho patrones aplicados que entregan 40-70% de reducción) y Operate (chargeback a equipos, detección de anomalías en costo de sesión, revisión trimestral de presupuesto).

Los ocho patrones de optimización son: enrutamiento dinámico por complejidad (Haiku para trivialidades, Sonnet para código, Opus para planes), caché jerárquico en tres niveles, subagent fan-out con jerarquía E-mem, plan-then-execute con modelo de planificación más económico, caché semántico por similitud de embedding, composición de herramientas en lugar de crecimiento del catálogo, MCP lean con divulgación progresiva de schemas y SDD de agente personalizado guiado por Spec-Kit.

Cinco anti-patrones a eliminar: siempre elegir el modelo más grande, tratar al agente como un workflow cuando el control determinista basta, pegar todo el repositorio en el contexto, omitir el prompt caching y saltarse el harness por completo.

La conclusión

La diferencia entre el cementerio y la plataforma no es talento. Es disciplina aplicada. Seis disciplinas. Una plataforma. Agentes que sobreviven en producción.

Numbers worth defendingNúmeros que valem defenderNúmeros que vale la pena defender

Three umbrella metrics, three sources.Três métricas guarda-chuva, três fontes.Tres métricas paraguas, tres fuentes.

Anchor every claim to a number that survives a board review. These three baselines are the public anchors used across all six disciplines.Ancore toda alegação a um número que sobreviva a revisão de board. Estes três baselines são as âncoras públicas usadas nas seis disciplinas.Ancla cada afirmación a un número que sobreviva una revisión de board. Estos tres baselines son las anclas públicas usadas en las seis disciplinas.

AGENT ADOPTION · 2026ADOÇÃO DE AGENTES · 2026ADOPCIÓN DE AGENTES · 2026

40%

enterprise apps with task-specific AI agentsapps corporativos com agentes específicosapps corporativas con agentes específicos

Gartner forecast for 2026 enterprise application footprint that includes at least one task-specific AI agent. Up from roughly 5 percent in 2024. The growth curve is what makes the discipline gap visible: capability arrives faster than the platform that should govern it.Previsão Gartner para 2026 de pegada de aplicação corporativa que inclui ao menos um agente IA específico de tarefa. Saindo de cerca de 5% em 2024. A curva de crescimento é o que torna o gap de disciplina visível: capacidade chega mais rápido que a plataforma que deveria governá-la.Pronóstico Gartner para 2026 de huella de aplicación corporativa que incluye al menos un agente IA específico de tarea. Saliendo de cerca de 5% en 2024. La curva de crecimiento es lo que hace visible la brecha de disciplina: la capacidad llega más rápido que la plataforma que debería gobernarla.

TOKEN COST DELTADELTA DE CUSTO DE TOKENDELTA DE COSTO DE TOKEN

30-70%

reduction with the four disciplines appliedredução com as quatro disciplinas aplicadasreducción con las cuatro disciplinas aplicadas

Field-observed range when the four context engineering tactics ship together: prompt caching, semantic compaction, model routing, and context expiry. Lower bound matches Microsoft customer references. Upper bound holds when retrieval is also tuned and the eval gates retry storms.Faixa observada em campo quando as quatro táticas de context engineering vão juntas: cache de prompt, compaction semântico, model routing e expiração de contexto. Limite inferior bate com referências de cliente Microsoft. Limite superior se mantém quando a recuperação está afinada e o eval barra retry storm.Rango observado en campo cuando las cuatro tácticas de context engineering van juntas: caché de prompt, compaction semántico, model routing y expiración de contexto. Límite inferior coincide con referencias de cliente Microsoft. Límite superior se sostiene cuando la recuperación está afinada y el eval frena retry storm.

COMPLEXITY DRIFTDRIFT DE COMPLEXIDADEDRIFT DE COMPLEJIDAD

+39%

cognitive complexity from ungoverned agentscomplexidade cognitiva sem governançacomplejidad cognitiva sin gobernanza

CMU AIDev study (Liu et al. 2026, 304K AI commits, 6,275 repos): cognitive complexity rises 39 percent in repos that adopt AI assistants without intent specs and review gates. Static-analysis warnings rise 18 percent. Both metrics fall back to baseline when intent and context layers are added.Estudo CMU AIDev (Liu et al. 2026, 304K commits IA, 6.275 repos): complexidade cognitiva sobe 39% em repos que adotam assistentes IA sem spec de intent e gates de revisão. Warnings de análise estática sobem 18%. Ambas voltam ao baseline com camadas de intent e contexto.Estudio CMU AIDev (Liu et al. 2026, 304K commits IA, 6,275 repos): la complejidad cognitiva sube 39% en repos que adoptan asistentes IA sin spec de intent y gates de revisión. Warnings de análisis estático suben 18%. Ambas vuelven al baseline al agregar capas de intent y contexto.

References Referências Referencias

The sources behind the claims on this page. Every link is public and verifiable. As fontes por trás das afirmações desta página. Todos os links são públicos e verificáveis. Las fuentes detrás de las afirmaciones de esta página. Todos los enlaces son públicos y verificables.

Keep exploring Continue explorando Sigue explorando

Sub-topic 01 Agentic DevOps PlatformPlataforma Agentic DevOpsPlataforma Agentic DevOps The platform layer focused.A camada de plataforma em foco.La capa de plataforma enfocada. → Sub-topic 02 Context Platform StackContext Platform StackContext Platform Stack The four-layer context model.O modelo de contexto em quatro camadas.El modelo de contexto de cuatro capas. → Sub-topic 03 Semantic Context LayerSemantic Context LayerSemantic Context Layer Compiler-grade context.Contexto qualidade-compilador.Contexto calidad-compilador. → Sub-topic 04 Token EconomyEconomia de TokensEconomía de Tokens Where the money is spent.Onde o dinheiro é gasto.Donde se gasta el dinero. →

Paula Silva | AI-Native Software Engineer

From data center transformation to agentic engineering. Da transformação de data center à engenharia agêntica. De la transformación de data center a la ingeniería agéntica.

Agentic DevOps Hub

Back to the hubVoltar ao hubVolver al hubAgentic DevOps HubAgentic DevOps HubAgentic DevOps Hub

© 2026 Paula Silva · All rights reserved© 2026 Paula Silva · Todos os direitos reservados© 2026 Paula Silva · Todos los derechos reservados Library · all downloads Biblioteca · todos os downloads Biblioteca · todas las descargas