Full Agentic Engineering PlatformPlataforma de Engenharia Agêntica CompletaPlataforma de Ingeniería Agéntica Completa
Six engineering disciplines — Cloud, Platform, Context, Intent, Harness, and Token Economy — unified into a single production-grade foundation that keeps agents alive beyond the pilot stage.Seis disciplinas de engenharia — Cloud, Platform, Context, Intent, Harness e Token Economy — unificadas em uma fundação de nível produtivo que mantém agentes vivos além da fase de piloto.Seis disciplinas de ingeniería — Cloud, Platform, Context, Intent, Harness y Token Economy — unificadas en una fundación de nivel productivo que mantiene a los agentes vivos más allá de la fase piloto.
The cemetery problem
75% of enterprises plan agentic AI. Only 34% report deep transformation. The gap is not ambition or budget. It is engineering. Pilot agents fail to reach production for one consistent reason: they lack a coherent multi-layer engineering foundation. The cemetery grows because layers get skipped.
Ungoverned agents add +39% cognitive complexity to engineering organizations (CMU AIDev). That number captures the downstream cost of shortcuts taken in a hurry to ship.
Three debts that compound
Technical debt is familiar. Two new forms make it worse.
Technical debt accumulates the usual way — patches, fragile dependencies, brittle tests. A study by Liu et al. analyzed 304,362 AI-generated commits across 6,275 repositories and found higher shares of requirement and test debt versus human-written code. AI assistance does not reduce debt automatically; it changes its shape.
Cognitive debt is subtler and more dangerous. Developers accept AI-generated code without understanding it. Storey calls it cognitive surrender. The codebase becomes orphaned knowledge: nobody can modify it safely because nobody understands why it works.
Intent debt is the newest and most insidious. The agent was built for metric X under constraint Y with hidden assumption Z. When production conditions shift, the agent optimizes for the wrong thing. It is not broken. It was never fully specified.
The six-discipline stack
A stack that survives production covers six disciplines in sequence:
| Layer | Name | Core tools |
|---|---|---|
| 01 | Cloud — Infrastructure foundation | K8s, MCP, IaC |
| 02 | Platform — Governance layer | IDP, golden paths |
| 03 | Context — What the agent knows | Memory, MCP, RAG |
| 04 | Intent — What the agent should do | SDD, CONSTITUTION |
| 05 | Harness — Operating model | Three Horizons |
| 06 | Token Economy — Pays the bill | FinOps, Foundry |
Cloud foundation: Kubernetes and MCP
Kubernetes has moved from niche to default for AI workloads. The CNCF survey confirms the trend: GPU operators, KServe, KubeRay, and vLLM operators all converge on K8s as the substrate. The reasons are practical — GPU scheduling, autoscaling, and multi-tenancy.
What changes for agents is the workload profile. Agentic sessions are not stateless web requests. They live for hours, hold KV cache, and fan out to subagents. Pod design, network policies, and autoscaling all require rethinking.
The Cognitive Platform Engineering (CPE) reference architecture organizes the stack into four planes: a Data Plane running agent workloads and MCP servers on GPU-backed pods; a Control Plane handling orchestration via K8s API, GitOps, and Argo; a Cognition Plane carrying routing, policy, and intent artifacts (Spec-Kit, CONSTITUTION); and an Observability layer collecting spans, logs, and cost data via OpenTelemetry and Application Insights.
MCP resolves the integration explosion at the protocol layer. Without a standard, every agent integrates every tool bilaterally — N×M integrations. MCP collapses that to N+M. Its three primitives are tools (side effects), resources (data exposure), and prompts (interaction shaping). A platform-owned MCP gateway centralizes auth, scope, and telemetry. Servers behind it carry policy, rate limits, and content classification.
Platform engineering: golden paths and identity
Without golden paths, every team rebuilds the same controls. Each agent ships with its own auth, telemetry, and secret handling. Governance becomes a paper exercise.
With golden paths — Backstage templates, IDP scaffolds, MCP server registries — security and FinOps controls are baked in. Teams are compliant by default and opt out only when they have a specific reason to.
Identity is the other foundation. Agents need SPIFFE workload identities, not service accounts. Every agent gets a SPIFFE ID that propagates from caller to MCP server to data source. Tokens are minted per session with narrow scope and short TTL. The agent cannot exceed what the user could do. Policy as code (OPA, Cedar) lives in repositories, versions with the code, and receives peer review like any other infrastructure artifact. Audit logs are queryable without engineering help.
Context engineering and intent engineering
Context and intent solve different problems. Conflating them is a common failure mode.
Context engineering is the discipline of assembling the smallest set of high-signal tokens that maximizes agent output quality. The utility curve is concave: underfilling leaves out facts the agent needs, but overfilling past the peak degrades output through context rot. Six techniques compound on each other:
- Compaction: structured compression of session history by the model itself — 22.7% reduction (arXiv 2601.07190)
- Tool result clearing: old tool results stay in context unless explicitly cleared, creating recurring cost for content already consumed
- E-mem subagents: hierarchical memory across subagents where the parent keeps summaries and children carry detail — –70% tokens (arXiv 2601.21714)
- Persistent memory: long-lived memory store outside the context window, 11x compression on retrieval (arXiv 2603.13017)
- SkillReducer: programmatic reduction of skill files — 39% body reduction, 48% description reduction (arXiv 2603.29919)
- Prompt caching: reuse of KV cache from a stable prefix — up to 90% input savings
Intent engineering addresses a different gap. A well-contextualized agent that lacks specified intent will optimize for the wrong outcome. The Spec-Kit makes intent legible through three artifacts: CONSTITUTION.md (non-negotiable values and trade-off hierarchies, not advice — constraints), SPECIFICATION.md (goals, success criteria, and anti-goals reviewed before code is written), and IMPLEMENTATION_PLAN.md (the plan as a version-controlled artifact, not a transient thought).
Harness engineering: the operating model
The four layers describe what to build. The harness wraps them in cadence, ownership, evidence, and review. Without it, the framework lives in slides. With it, it ships.
Organizations choose one of two paths:
Three Horizons Accelerator is Microsoft-aligned and opinionated. It pre-wires Azure AI Foundry, GitHub Copilot Enterprise, Microsoft 365 Copilot, and Teams with observability, FinOps, and identity. Faster start, narrower path.
Open Horizons uses the CNCF stack, a multi-model gateway, OpenTelemetry, and FOCUS. More integration work, more sovereignty, more model flexibility. The same harness disciplines apply.
Maturity progresses through five levels: L1 Chaos (pilots, no stack), L2 Guarded (first IDP, basic policy, MCP gateway), L3 Contextual (skills, MCP, RAG, prompt caching), L4 Intentional (Spec-Kit, audits, chargeback), L5 Harnessed (full operating model, Three Horizons live).
Ten principles bind the layers. Among the most actionable: treat tokens as a finite resource with budgets per session, agent, and repository; pre-compute compiler-grade context in CI rather than per task; pick the smallest model that passes the eval; prefer workflows over agents unless adaptive control genuinely adds value; and run harness rituals — weekly cost review, monthly intent review, quarterly maturity exit.
Token economy: FinOps for AI
On June 1, 2026, GitHub Copilot stopped charging per request. Premium Request Units retired. GitHub AI Credits took over: 1 AI Credit equals US$0.01. Input, output, and cached tokens are accounted at the published API rate of each model. Cost is now per work performed, not per user intent.
For a 500-developer organization at US$19/seat (baseline US$9,500/month), pilots without discipline observed 50–100% overage after the PRU transition. With discipline applied, the same organization achieves 25–45% reduction over baseline within 60–90 days, compounding to 40–70% reduction on agentic workloads. For organizations with 5,000+ developers, annual savings exceed US$1 million. The payback period is under 60 days.
The FinOps cycle has three phases: Inform (showback per session, agent, repo, and team via FOCUS export and Power BI or Grafana dashboards), Optimize (eight applied patterns delivering 40–70% reduction), and Operate (chargeback to teams, anomaly detection on session cost, quarterly budget review).
The eight optimization patterns are: dynamic routing by complexity (Haiku for trivia, Sonnet for code, Opus for plans), hierarchical caching at three levels, subagent fan-out with E-mem hierarchy, plan-then-execute with a cheaper planning model, semantic cache using embedding similarity, tool composition over catalog growth, lean MCP with progressive disclosure of schemas, and Spec-Kit driven custom agent SDD.
Five anti-patterns to eliminate: always picking the largest model, treating an agent as a workflow when deterministic control suffices, pasting the whole repository into context, skipping prompt caching, and skipping the harness entirely.
The closing argument
The difference between the cemetery and the platform is not talent. It is applied discipline. Six disciplines, one platform, production agents that survive.
O problema do cemitério
75% das empresas planejam IA agêntica. Apenas 34% relatam transformação profunda. A lacuna não é de ambição nem de orçamento. É de engenharia. Pilotos de agente falham em chegar à produção por uma razão consistente: falta uma fundação de engenharia coerente em múltiplas camadas. O cemitério cresce porque camadas são puladas.
Agentes sem governança adicionam +39% de complexidade cognitiva às organizações de engenharia (CMU AIDev). Esse número captura o custo downstream dos atalhos tomados às pressas para entregar.
Três dívidas que se acumulam
Dívida técnica é familiar. Duas formas novas pioram tudo.
Dívida técnica acumula do jeito habitual — patches, dependências frágeis, testes quebradiços. Liu et al. analisaram 304.362 commits gerados por IA em 6.275 repositórios e encontraram maior proporção de dívida de requisitos e testes versus código humano. Assistência de IA não reduz dívida automaticamente; muda sua forma.
Dívida cognitiva é mais sutil e mais perigosa. Devs aceitam código gerado por IA sem entender. Storey chama de rendição cognitiva. A base de código vira conhecimento órfão: ninguém modifica com segurança porque ninguém entende por que funciona.
Dívida de intenção é a mais nova e mais insidiosa. O agente foi feito para métrica X sob restrição Y com premissa oculta Z. Quando produção muda, o agente otimiza para a coisa errada. Não está quebrado. Só nunca foi especificado por completo.
A pilha de seis disciplinas
Uma pilha que sobrevive em produção cobre seis disciplinas em sequência:
| Camada | Nome | Ferramentas centrais |
|---|---|---|
| 01 | Cloud — Fundação de infraestrutura | K8s, MCP, IaC |
| 02 | Platform — Camada de governança | IDP, golden paths |
| 03 | Context — O que o agente sabe | Memória, MCP, RAG |
| 04 | Intent — O que o agente deve fazer | SDD, CONSTITUTION |
| 05 | Harness — Modelo operacional | Three Horizons |
| 06 | Token Economy — Paga a conta | FinOps, Foundry |
Fundação cloud: Kubernetes e MCP
O Kubernetes passou de nicho para padrão em cargas de IA. A pesquisa CNCF confirma a tendência: GPU operators, KServe, KubeRay e vLLM operators todos convergem para K8s como substrato. As razões são práticas — escalonamento de GPU, autoscaling e multi-tenancy.
O que muda para agentes é o perfil da carga. Sessões agênticas não são requests web stateless. Duram horas, mantêm KV cache e fazem fan-out para subagentes. Design de pod, network policies e autoscaling precisam ser repensados.
A arquitetura de referência CPE (Cognitive Platform Engineering) organiza a pilha em quatro planos: um Data Plane executando workloads de agente e servidores MCP em pods com GPU; um Control Plane orquestrando via K8s API, GitOps e Argo; um Cognition Plane carregando roteamento, política e artefatos de intenção (Spec-Kit, CONSTITUTION); e uma camada de Observabilidade coletando spans, logs e dados de custo via OpenTelemetry e Application Insights.
MCP resolve a explosão de integrações na camada de protocolo. Sem um padrão, cada agente integra cada ferramenta bilateralmente — N×M integrações. MCP colapsa isso para N+M. Suas três primitivas são ferramentas (efeitos colaterais), recursos (exposição de dados) e prompts (moldagem de interação). Um gateway MCP de plataforma centraliza auth, escopo e telemetria. Servidores atrás dele carregam política, rate limits e classificação de conteúdo.
Platform engineering: golden paths e identidade
Sem golden paths, cada time reconstrói os mesmos controles. Cada agente entrega com auth próprio, telemetria própria e manuseio de segredo próprio. Governança vira exercício de papel.
Com golden paths — templates Backstage, scaffolds IDP, registros de servidor MCP — controles de segurança e FinOps são embutidos. Times são compliant por padrão e optam fora apenas quando têm razão específica para isso.
Identidade é a outra fundação. Agentes precisam de identidades de workload SPIFFE, não de service accounts. Cada agente recebe um SPIFFE ID que propaga do chamador ao servidor MCP à fonte de dados. Tokens são criados por sessão com escopo estreito e TTL curto. O agente não pode exceder o que o usuário poderia fazer. Política como código (OPA, Cedar) vive em repositórios, versiona com o código e recebe revisão de pares como qualquer outro artefato de infraestrutura. Logs de auditoria são consultáveis sem ajuda de engenharia.
Context engineering e intent engineering
Contexto e intenção resolvem problemas diferentes. Confundi-los é um modo de falha comum.
Context engineering é a disciplina de montar o menor conjunto de tokens de alto sinal que maximiza a qualidade da saída do agente. A curva de utilidade é côncava: subabastecer deixa de fora fatos que o agente precisa, mas ultrapassar o pico degrada o output via context rot. Seis técnicas se acumulam:
- Compactação: compressão estruturada do histórico de sessão pelo próprio modelo — redução de 22.7% (arXiv 2601.07190)
- Limpeza de tool result: resultados antigos de tools ficam no contexto a menos que limpos, gerando custo recorrente por conteúdo já consumido
- Subagentes E-mem: memória hierárquica entre subagentes onde o pai mantém resumos e os filhos carregam detalhe — –70% tokens (arXiv 2601.21714)
- Memória persistente: store de longa vida fora da janela de contexto, compressão 11x na recuperação (arXiv 2603.13017)
- SkillReducer: redução programática de arquivos de skill — 39% de redução no corpo, 48% na descrição (arXiv 2603.29919)
- Prompt caching: reuso de KV cache de prefixo estável — até 90% de economia em input
Intent engineering aborda uma lacuna diferente. Um agente bem contextualizado que não tem intenção especificada vai otimizar para o resultado errado. O Spec-Kit torna intenção legível através de três artefatos: CONSTITUTION.md (valores e hierarquias de trade-off não-negociáveis — não conselhos, restrições), SPECIFICATION.md (objetivos, critérios de sucesso e anti-objetivos revisados antes de qualquer código) e IMPLEMENTATION_PLAN.md (o plano como artefato versionado, não como pensamento transitório).
Harness engineering: o modelo operacional
As quatro camadas descrevem o que construir. O harness as envolve em cadência, propriedade, evidência e revisão. Sem ele, o framework vive em slides. Com ele, entra em produção.
As organizações escolhem um de dois caminhos:
Three Horizons Accelerator é alinhado à Microsoft e opinativo. Pré-conecta Azure AI Foundry, GitHub Copilot Enterprise, Microsoft 365 Copilot e Teams com observabilidade, FinOps e identidade. Início mais rápido, caminho mais estreito.
Open Horizons usa o stack CNCF, gateway multi-modelo, OpenTelemetry e FOCUS. Mais trabalho de integração, mais soberania, mais flexibilidade de modelo. As mesmas disciplinas de harness se aplicam.
A maturidade progride em cinco níveis: L1 Chaos (pilotos, sem stack), L2 Guarded (primeiro IDP, política básica, gateway MCP), L3 Contextual (skills, MCP, RAG, prompt caching), L4 Intentional (Spec-Kit, auditorias, chargeback), L5 Harnessed (modelo operacional completo, Three Horizons em produção).
Dez princípios unem as camadas. Entre os mais acionáveis: trate tokens como recurso finito com orçamentos por sessão, agente e repositório; pré-compute contexto qualidade-compilador no CI em vez de por tarefa; escolha o menor modelo que passa no eval; prefira workflows a agentes a menos que controle adaptativo genuinamente agregue valor; e execute rituais de harness — revisão semanal de custo, revisão mensal de intenção, saída trimestral de maturidade.
Economia de tokens: FinOps para IA
Em 1 de junho de 2026, o GitHub Copilot parou de cobrar por request. Os Premium Request Units se aposentaram. GitHub AI Credits assumiram: 1 AI Credit equivale a US$0,01. Tokens de input, output e cached são contabilizados na taxa de API publicada de cada modelo. O custo passa a ser por trabalho executado, não por intenção do usuário.
Para uma organização de 500 devs a US$19/assento (baseline de US$9.500/mês), pilotos sem disciplina observaram 50–100% de overage após a transição do PRU. Com disciplina aplicada, a mesma organização alcança 25–45% de redução vs baseline em 60–90 dias, acumulando até 40–70% de redução em cargas agênticas. Para organizações com 5.000+ devs, a economia anual passa de US$1 milhão. O payback é inferior a 60 dias.
O ciclo FinOps tem três fases: Inform (showback por sessão, agente, repo e time via export FOCUS e dashboards Power BI ou Grafana), Optimize (oito padrões aplicados entregando 40–70% de redução) e Operate (chargeback para times, detecção de anomalia em custo de sessão, revisão trimestral de orçamento).
Os oito padrões de otimização são: roteamento dinâmico por complexidade (Haiku para trivia, Sonnet para código, Opus para planos), cache hierárquico em três níveis, subagent fan-out com hierarquia E-mem, plan-then-execute com modelo de planejamento mais barato, cache semântico por similaridade de embedding, composição de tools em vez de crescimento do catálogo, MCP enxuto com disclosure progressivo de schemas e SDD de agente custom guiado por Spec-Kit.
Cinco anti-padrões para eliminar: sempre escolher o maior modelo, tratar agente como workflow quando controle determinístico basta, colar o repositório inteiro no contexto, pular prompt caching e pular o harness por inteiro.
A conclusão
A diferença entre o cemitério e a plataforma não é talento. É disciplina aplicada. Seis disciplinas. Uma plataforma. Agentes que sobrevivem em produção.
El problema del cementerio
El 75% de las empresas planea IA agéntica. Solo el 34% reporta transformación profunda. La brecha no es de ambición ni de presupuesto. Es de ingeniería. Los pilotos de agentes fallan en llegar a producción por una razón consistente: les falta una fundación de ingeniería coherente en múltiples capas. El cementerio crece porque se saltan capas.
Los agentes sin gobernanza añaden +39% de complejidad cognitiva a las organizaciones de ingeniería (CMU AIDev). Ese número captura el costo downstream de los atajos tomados con prisas para entregar.
Tres deudas que se acumulan
La deuda técnica es familiar. Dos formas nuevas la empeoran.
Deuda técnica acumula de la manera habitual — parches, dependencias frágiles, tests quebradizos. Liu et al. analizaron 304.362 commits generados por IA en 6.275 repositorios y encontraron mayor proporción de deuda de requisitos y tests versus código humano. La asistencia de IA no reduce la deuda automáticamente; cambia su forma.
Deuda cognitiva es más sutil y más peligrosa. Los devs aceptan código generado por IA sin entenderlo. Storey la llama rendición cognitiva. La base de código se convierte en conocimiento huérfano: nadie puede modificarla con seguridad porque nadie entiende por qué funciona.
Deuda de intención es la más nueva y más insidiosa. El agente fue construido para métrica X bajo restricción Y con premisa oculta Z. Cuando las condiciones de producción cambian, el agente optimiza para lo equivocado. No está roto. Simplemente nunca se especificó por completo.
La pila de seis disciplinas
Una pila que sobrevive en producción cubre seis disciplinas en secuencia:
| Capa | Nombre | Herramientas centrales |
|---|---|---|
| 01 | Cloud — Fundación de infraestructura | K8s, MCP, IaC |
| 02 | Platform — Capa de gobernanza | IDP, golden paths |
| 03 | Context — Lo que el agente sabe | Memoria, MCP, RAG |
| 04 | Intent — Lo que el agente debe hacer | SDD, CONSTITUTION |
| 05 | Harness — Modelo operativo | Three Horizons |
| 06 | Token Economy — Paga la factura | FinOps, Foundry |
Fundación cloud: Kubernetes y MCP
Kubernetes ha pasado de nicho a estándar para cargas de trabajo de IA. La encuesta CNCF confirma la tendencia: GPU operators, KServe, KubeRay y vLLM operators convergen todos en K8s como sustrato. Las razones son prácticas — scheduling de GPU, autoscaling y multi-tenancy.
Lo que cambia para los agentes es el perfil de la carga. Las sesiones agénticas no son requests web sin estado. Viven durante horas, mantienen KV cache y hacen fan-out a subagentes. El diseño de pods, las políticas de red y el autoscaling requieren replanteamiento.
La arquitectura de referencia CPE (Cognitive Platform Engineering) organiza la pila en cuatro planos: un Data Plane ejecutando workloads de agente y servidores MCP en pods con GPU; un Control Plane orquestando mediante K8s API, GitOps y Argo; un Cognition Plane llevando enrutamiento, política y artefactos de intención (Spec-Kit, CONSTITUTION); y una capa de Observabilidad que recopila spans, logs y datos de costo mediante OpenTelemetry y Application Insights.
MCP resuelve la explosión de integraciones en la capa de protocolo. Sin un estándar, cada agente integra cada herramienta bilateralmente — N×M integraciones. MCP lo colapsa a N+M. Sus tres primitivas son herramientas (efectos secundarios), recursos (exposición de datos) y prompts (moldeo de interacción). Un gateway MCP de plataforma centraliza auth, alcance y telemetría. Los servidores detrás de él llevan políticas, rate limits y clasificación de contenido.
Platform engineering: golden paths e identidad
Sin golden paths, cada equipo reconstruye los mismos controles. Cada agente se entrega con su propio auth, su propia telemetría y su propio manejo de secretos. La gobernanza se convierte en un ejercicio de papel.
Con golden paths — templates de Backstage, scaffolds IDP, registros de servidor MCP — los controles de seguridad y FinOps están integrados de fábrica. Los equipos son conformes por defecto y solo optan por salir cuando tienen una razón específica para hacerlo.
La identidad es la otra fundación. Los agentes necesitan identidades de workload SPIFFE, no service accounts. Cada agente recibe un SPIFFE ID que se propaga desde el llamador al servidor MCP hasta la fuente de datos. Los tokens se acuñan por sesión con alcance estrecho y TTL corto. El agente no puede exceder lo que el usuario podría hacer. La política como código (OPA, Cedar) vive en repositorios, versiona con el código y recibe revisión de pares como cualquier otro artefacto de infraestructura. Los logs de auditoría son consultables sin ayuda de ingeniería.
Context engineering e intent engineering
El contexto y la intención resuelven problemas distintos. Confundirlos es un modo de fallo común.
Context engineering es la disciplina de ensamblar el conjunto más pequeño de tokens de alta señal que maximiza la calidad del output del agente. La curva de utilidad es cóncava: subabastecer omite hechos que el agente necesita, pero sobrepasar el pico degrada el output por context rot. Seis técnicas se acumulan entre sí:
- Compactación: compresión estructurada del historial de sesión por el propio modelo — reducción del 22.7% (arXiv 2601.07190)
- Limpieza de tool result: los resultados antiguos de herramientas permanecen en contexto a menos que se limpien explícitamente, generando pago recurrente por contenido ya consumido
- Subagentes E-mem: memoria jerárquica entre subagentes donde el padre mantiene resúmenes y los hijos llevan detalle — –70% tokens (arXiv 2601.21714)
- Memoria persistente: store de larga vida fuera de la ventana de contexto, compresión 11x en recuperación (arXiv 2603.13017)
- SkillReducer: reducción programática de archivos de skill — 39% de reducción en cuerpo, 48% en descripción (arXiv 2603.29919)
- Prompt caching: reutilización del KV cache de un prefijo estable — hasta el 90% de ahorro en input
Intent engineering aborda una brecha distinta. Un agente bien contextualizado que carece de intención especificada optimizará para el resultado equivocado. El Spec-Kit hace legible la intención mediante tres artefactos: CONSTITUTION.md (valores y jerarquías de trade-off no negociables — no consejos, restricciones), SPECIFICATION.md (objetivos, criterios de éxito y anti-objetivos revisados antes de escribir código) e IMPLEMENTATION_PLAN.md (el plan como artefacto versionado, no como pensamiento transitorio).
Harness engineering: el modelo operativo
Las cuatro capas describen qué construir. El harness las envuelve en cadencia, propiedad, evidencia y revisión. Sin él, el framework vive en diapositivas. Con él, llega a producción.
Las organizaciones eligen uno de dos caminos:
Three Horizons Accelerator está alineado con Microsoft y es opinionado. Pre-conecta Azure AI Foundry, GitHub Copilot Enterprise, Microsoft 365 Copilot y Teams con observabilidad, FinOps e identidad. Inicio más rápido, camino más estrecho.
Open Horizons usa el stack CNCF, un gateway multi-modelo, OpenTelemetry y FOCUS. Más trabajo de integración, más soberanía, más flexibilidad de modelo. Las mismas disciplinas de harness aplican.
La madurez avanza en cinco niveles: L1 Chaos (pilotos, sin stack), L2 Guarded (primer IDP, política básica, gateway MCP), L3 Contextual (skills, MCP, RAG, prompt caching), L4 Intentional (Spec-Kit, auditorías, chargeback), L5 Harnessed (modelo operativo completo, Three Horizons en producción).
Diez principios unen las capas. Entre los más accionables: tratar los tokens como recurso finito con presupuestos por sesión, agente y repositorio; precomputar contexto de calidad compilador en CI en vez de por tarea; elegir el modelo más pequeño que pasa el eval; preferir workflows a agentes a menos que el control adaptativo agregue valor genuinamente; y ejecutar rituales de harness — revisión semanal de costos, revisión mensual de intención, salida trimestral de madurez.
Economía de tokens: FinOps para IA
El 1 de junio de 2026, GitHub Copilot dejó de cobrar por request. Los Premium Request Units se retiraron. GitHub AI Credits tomaron el control: 1 AI Credit equivale a US$0,01. Los tokens de input, output y cached se contabilizan a la tarifa de API publicada de cada modelo. El costo pasa a ser por trabajo realizado, no por intención del usuario.
Para una organización de 500 devs a US$19/asiento (baseline de US$9.500/mes), los pilotos sin disciplina observaron 50–100% de exceso tras la transición del PRU. Con disciplina aplicada, la misma organización alcanza una reducción del 25–45% sobre baseline en 60–90 días, componiéndose hasta 40–70% de reducción en cargas agénticas. Para organizaciones con más de 5.000 devs, el ahorro anual supera US$1 millón. El payback es inferior a 60 días.
El ciclo FinOps tiene tres fases: Inform (showback por sesión, agente, repo y equipo mediante export FOCUS y dashboards Power BI o Grafana), Optimize (ocho patrones aplicados que entregan 40–70% de reducción) y Operate (chargeback a equipos, detección de anomalías en costo de sesión, revisión trimestral de presupuesto).
Los ocho patrones de optimización son: enrutamiento dinámico por complejidad (Haiku para trivialidades, Sonnet para código, Opus para planes), caché jerárquico en tres niveles, subagent fan-out con jerarquía E-mem, plan-then-execute con modelo de planificación más económico, caché semántico por similitud de embedding, composición de herramientas en lugar de crecimiento del catálogo, MCP lean con divulgación progresiva de schemas y SDD de agente personalizado guiado por Spec-Kit.
Cinco anti-patrones a eliminar: siempre elegir el modelo más grande, tratar al agente como un workflow cuando el control determinista basta, pegar todo el repositorio en el contexto, omitir el prompt caching y saltarse el harness por completo.
La conclusión
La diferencia entre el cementerio y la plataforma no es talento. Es disciplina aplicada. Seis disciplinas. Una plataforma. Agentes que sobreviven en producción.
Start with the platform, not the agents. Comece pela plataforma, não pelos agentes. Comience por la plataforma, no por los agentes.
Building the future of software development with AI and Agentic DevOps.