Paula Silva Software Global Black Belt
LinkedIn

Agentic DevOps PlatformPlataforma Agentic DevOpsPlataforma Agentic DevOps

Why 95% of AI pilots fail and platform-mature organizations succeed — and how the Open Horizons accelerator compresses the path from raw infrastructure to production AI workloads from 9–18 months to 90–180 days.Por que 95% dos pilotos de IA falham e organizações com plataformas maduras têm sucesso — e como o acelerador Open Horizons comprime o caminho da infraestrutura crua até workloads de IA em produção de 9 a 18 meses para 90 a 180 dias.Por qué el 95% de los pilotos de IA fracasan y las organizaciones con plataformas maduras tienen éxito — y cómo el acelerador Open Horizons comprime el camino desde infraestructura cruda hasta workloads de IA en producción de 9 a 18 meses a 90 a 180 días.

The foundation is decisive in 2026

Three things are simultaneously true about enterprise AI in 2026. AI adoption is universal — 40% of enterprise applications will include task-specific AI agents by 2026, up from less than 5% in 2024, and 78% of organizations already use AI in at least one function (Gartner/McKinsey 2025). Most AI projects fail in production — 95% of GenAI pilots fail to deliver measurable value, and Gartner projects that 40% of agentic AI projects will be cancelled by 2027 due to cost, unclear value, and weak risk controls. And yet platform-mature organizations are the ones succeeding — DORA 2025 surveyed 39,000 practitioners and found 90% IDP adoption among high performers, with AI productivity gains conditional on delivery maturity.

The pattern is not coincidence. The organizations succeeding with AI are the ones that invested in Platform Engineering before they invested at scale in AI.

CNCF CTO Chris Aniszczyk put it plainly at KubeCon Europe 2026: “Agents amplify what is good or bad in your ecosystem. The question is not whether you adopt agents. The question is whether your foundation can carry their weight.”

DORA 2025 makes the stakes quantitative. Organizations that added AI on top of mature Internal Developer Platforms saw +98% PR throughput versus baseline. Organizations that added the same AI tools without platform foundation experienced +242.7% incidents per pull request and +441% longer code review cycles. Identical model, identical prompts — the platform is the differentiator. Elite performers see +20–30% net gain from AI; low performers go net negative.

Six independent studies — DORA, MIT NANDA, Gartner, CNCF, McKinsey/Forrester, and IDC — converge on the same finding: platform determines whether AI succeeds or fails. IDC (Feb 2026) found 73% of organizations lack the platform prerequisites for agentic AI, with only 8% running agentic AI in production. McKinsey and Forrester document 2.5x faster ROI and 4–6x faster time to production in platform-mature organizations.

The five-layer pyramid of the AI-native enterprise

The AI-native enterprise has a five-layer architecture with strict dependency ordering. Each layer depends on the one below it and is only meaningful when that dependency is satisfied.

L1 — Platform Engineering is the self-service, policy-governed, observable substrate that abstracts infrastructure complexity into developer-usable primitives. Its outputs are Golden Paths, Guardrails, Safety Nets, and Manual Review Workflows. Without this layer, nothing above it is trustworthy. Deliverables include: Backstage portal, CI/CD as code, Policy-as-Code (OPA Gatekeeper), Observability (Prometheus, Grafana, OpenTelemetry), GitOps (ArgoCD), Workload Identity, cost attribution, and documentation-as-code.

L2 — Context Layer is the codified representation of the enterprise’s knowledge, data, and decisions in machine-consumable form. The platform layer owns the primitives — RBAC, observability, lifecycle — that make context trustworthy. Without L1, context rots silently and agents reason over stale, wrong data. DataHub 2025 found that 88% of data leaders prioritize context as their highest investment for 2026, yet 61% report data quality blocks AI in practice.

L3 — Cognitive Layer contains the models and reasoning services that consume context to produce outputs: foundation models (GPT-4o, Claude, Llama, Mistral), fine-tuned models, embedding services, and evaluation pipelines — all mediated through a model gateway provisioned and governed by the platform layer.

L4 — Intent Layer is the codified representation of what the enterprise wants, expressed in a form that agents can plan against. Intent without context is hallucination; context without intent is description without direction. Deliverables include Spec-Driven Development tooling, EARS notation requirements, Constitutional AI principles, and agent permission scope contracts.

L5 — Agentic Layer is the visible layer for most AI investment in 2026 — autonomous, goal-driven agents that combine intent, context, and cognition to take action. It is also the layer most likely to fail when the layers beneath it are missing.

You cannot build layer N+1 faster than layer N. An organization that jumps to the agentic layer without the platform, context, and intent layers produces not agents but an amplified mess.

CNCF Four Pillars as governance semantics

The CNCF Four Pillars of Platform Engineering — Golden Paths, Guardrails, Safety Nets, and Manual Review — were originally designed for human-driven delivery. In 2026 they are re-expressed as the control plane for AI-driven delivery.

Golden Paths are opinionated, self-service workflows that get a developer from “I want to build X” to a working, compliant system in minutes. A Golden Path is not merely a template; it encodes the enterprise’s current best practice for a specific outcome, versioned and improvable. For agents, Golden Paths become the sanctioned execution surface — the templates by which agents are instantiated. If it is not a Golden Path, the agent does not run it.

Guardrails make the wrong thing hard to do. Policies enforced at admission — Policy-as-Code via OPA Gatekeeper, Kyverno, and Azure Policy; Network Security Groups; Workload Identity replacing long-lived service credentials; signed-image admission controllers. For agents, Guardrails become the policies agents must satisfy at runtime: permission scope, data access, output filtering. The agent containment field.

Safety Nets detect, recover, and contain blast radius. GitOps reconciliation (ArgoCD, Flux) returns cluster state to declared state. Observability stacks surface anomalies. Progressive delivery (canary, blue-green, feature flags) limits exposure. For agents, Safety Nets become the reconciliation loops that correct agent drift: prompt-injection recovery, cost circuit breakers, output validation, and SLO-driven freeze.

Manual Review creates explicit human-in-the-loop checkpoints for decisions that should not be automated. Environment promotion gates (dev auto-sync, staging gated, production requires approval), Change Advisory Board flows, and cost gates above threshold. For agents, Manual Review becomes the approval workflow for agent capability expansion — the AI equivalent of an elevated production deploy, with accountability staying with named humans by design.

PillarFor human developers (2022)For autonomous agents (2026)
Golden PathsService templates, scaffoldsSanctioned execution surface
GuardrailsMisconfiguration preventionAutonomous escalation containment
Safety NetsRollback, progressive deliveryDecision-level rollback, SLO freeze
Manual ReviewCode review on PRApproval gates on irreversible actions

The control plane does not need to be invented. It needs to be re-expressed as the operating system for the agent population.

Failure modes when the foundation is weak

When the platform layer is weak, five specific and repeatable failure modes appear. All share the same structural cause: AI operates faster than ad-hoc processes can govern.

Triple debt — AI simultaneously accumulates technical debt (AI-generated code without code review discipline), cognitive debt (knowledge un-codified and fragmented across prompts and Slack threads), and intent debt (goals and policies that are implicit, contradictory, or undocumented). Three debts compound in parallel and none resolves the others.

Shadow platforms — when the central platform is unusable, teams build their own. Bespoke CI/CD per team, conflicting Terraform modules, five different MCP server forks with no canonical registry, and each squad paying for its own observability stack. The distributed cost is invisible in any single budget line but aggregates to 2–3x the budget of a real platform.

Context rot — service catalogs, documentation, and lineage all rot ambiently in every enterprise. Without the tooling to measure rot (freshness metrics, ownership coverage, documentation coverage) and the workflow to correct it, AI agents reason over rotted context and produce plausible but wrong answers at scale.

Security regression — CrowdStrike’s 2026 Global Threat Report documents a specific finding: organizations that deployed AI coding assistants before maturing their platform security posture experienced a +38% increase in exploitable vulnerabilities in the first 12 months. The regression disappears in organizations where the platform enforces supply-chain and policy controls at admission.

The 100:1 problem — by 2028, the agent-to-human ratio is projected to reach 100:1. Manual supervision of agent lifecycle, credentials, and audit is no longer feasible at that ratio. The only structural answer is a platform that treats agents as first-class workloads and governs them at platform speed rather than human speed.

The 2026 Dual Mandate

Platform teams in 2026 carry two simultaneous workstreams.

Mandate A — Augment the platform with AI. Use AI to make the platform itself better: agents that triage alerts, draft runbook fixes, propose Terraform changes, route incidents; in-IDE agents that generate Golden Path invocations, explain platform errors, produce boilerplate. The goal is to raise the internal velocity of the platform team so platform improvements ship faster.

Mandate B — Enable AI workloads at scale. Expose AI capabilities — inference, vector storage, agent runtime, evaluation, observability — as first-class platform primitives that application teams consume through Golden Paths. The goal is to raise the external velocity of application teams so AI-using products ship faster.

A platform that executes only Mandate A produces a faster platform team. A platform that executes only Mandate B becomes the bottleneck. Mature platforms execute both.

Open Horizons: the accelerator

Open Horizons is a single GitHub template repository that compresses the time from raw Azure infrastructure to a production Agentic DevOps Platform from 9–18 months to 90–180 days. By the numbers: 120+ files, 16 Terraform modules, 22 Golden Path templates, 17 GitHub Copilot Chat agents, 30+ alerting rules, 15 MCP servers, 20,000+ lines of code, and 16 operational skills. An enterprise adopting Open Horizons does not write a platform from scratch; it customizes an opinionated starting point — an order-of-magnitude difference in cost, time, and risk.

The architecture follows Three Horizons:

  • H1 — Foundation (Days 0–90): AKS, VNet zero-trust, Azure Key Vault, ACR, PostgreSQL, Redis, Defender for Cloud, cost management, CAF naming, OPA Gatekeeper. Six templates.
  • H2 — Enhancement (Months 3–6): ArgoCD GitOps, Backstage IDP, Prometheus + Grafana, External Secrets, GitHub self-hosted runners, NGINX + cert-manager. Nine templates.
  • H3 — Innovation (Months 6–12): Azure AI Foundry, RAG applications, multi-agent systems, MLOps pipelines, GitHub Copilot extensions. Seven templates.

Every H3 template inherits H1 and H2 primitives. A foundry-agent is, structurally, a microservice plus a model binding plus an evaluation pipeline — not a separate architecture.

The 17 Copilot Chat agents — @architect, @terraform, @devops, @platform, @deploy, @sre, @security, @reviewer, @test, @docs, @onboarding, @backstage-expert, @github-integration, @ado-integration, @template-engineer, @context-architect, and @hybrid-scenarios — execute the Dual Mandate across the full platform lifecycle.

Maturity model and measurement

The CNCF Platform Engineering Maturity Model defines five levels across five dimensions: Investment, Adoption, Interfaces, Operations, and Measurement. The target state — AI-Native (Level 5) — is characterized by a dual-mandate budget, agents adopting platform interfaces at scale, agent-operated operations with human review, and measurement covering DORA metrics plus AI ROI plus agent health. It is the only level that closes the dual mandate.

The sequence: 90 days, 6 months, 12 months

The roadmap is concrete and sequenced. Days 0–90: AKS cluster provisioned with Terraform, Backstage deployed with H1 Golden Paths available, ArgoCD with environment-specific sync policies, Prometheus + Grafana platform dashboard live, three teams onboarded, DORA metrics live, and time-to-first-PR under one day. Months 3–6: H2 platform services and Golden Paths. Months 6–12: H3 AI capabilities at scale.

The formula is direct: Platform Engineering plus Open Horizons equals Agentic DevOps Platform. The question is no longer whether to build the foundation. It is how fast. The answer, for enterprises willing to commit, is 90 to 180 days.

A fundação é decisiva em 2026

Três coisas são simultaneamente verdadeiras sobre IA enterprise em 2026. A adoção de IA é universal — 40% das aplicações enterprise incluirão agentes de IA especializados até 2026, partindo de menos de 5% em 2024, e 78% das organizações já usam IA em pelo menos uma função (Gartner/McKinsey 2025). A maioria dos projetos de IA falha em produção — 95% dos pilotos de GenAI não entregam valor mensurável, e o Gartner projeta que 40% dos projetos de IA agêntica serão cancelados até 2027 por custo, valor incerto e controles de risco frágeis. E ainda assim, as organizações com plataformas maduras são as que estão tendo sucesso — o DORA 2025 ouviu 39 mil profissionais e encontrou 90% de adoção de IDP entre os de alto desempenho, com os ganhos de produtividade da IA condicionados à maturidade de entrega.

O padrão não é coincidência. As organizações que estão tendo sucesso com IA são as que investiram em Engenharia de Plataforma antes de investir em IA em escala.

O CTO da CNCF, Chris Aniszczyk, foi direto no KubeCon Europe 2026: “Agentes amplificam o que é bom ou ruim no seu ecossistema. A questão não é se você adota agentes. A questão é se a sua fundação consegue sustentar o peso deles.”

O DORA 2025 torna as apostas quantitativas. Organizações que adicionaram IA sobre Plataformas Internas de Desenvolvimento maduras viram +98% de throughput de PRs em relação à baseline. Organizações que adicionaram as mesmas ferramentas de IA sem fundação de plataforma experimentaram +242,7% de incidentes por pull request e +441% em revisões de código mais longas. Mesmo modelo, mesmos prompts — a plataforma é o diferencial. Performers de elite têm ganho líquido de +20 a 30% com IA; performers baixos ficam no negativo.

Seis estudos independentes — DORA, MIT NANDA, Gartner, CNCF, McKinsey/Forrester e IDC — convergem para a mesma conclusão: a plataforma determina se a IA tem sucesso ou falha. A IDC (fev. 2026) constatou que 73% das organizações não têm os pré-requisitos de plataforma para IA agêntica, com apenas 8% executando IA agêntica em produção. McKinsey e Forrester documentam ROI 2,5x mais rápido e tempo para produção 4 a 6x menor em organizações com plataformas maduras.

A pirâmide de cinco camadas da empresa AI-nativa

A empresa AI-nativa tem uma arquitetura de cinco camadas com ordem de dependência estrita. Cada camada depende da que está abaixo e só faz sentido quando essa dependência é satisfeita.

L1 — Engenharia de Plataforma é o substrato self-service, governado por políticas e observável, que abstrai a complexidade da infraestrutura em primitivas usáveis pelo desenvolvedor. As entregas são Golden Paths, Guardrails, Safety Nets e fluxos de Manual Review. Sem essa camada, nada acima dela é confiável. Entregas incluem: portal Backstage, CI/CD como código, Policy-as-Code (OPA Gatekeeper), Observabilidade (Prometheus, Grafana, OpenTelemetry), GitOps (ArgoCD), Workload Identity, atribuição de custo e documentação-como-código.

L2 — Camada de Contexto é a representação codificada do conhecimento, dos dados e das decisões da empresa em formato consumível por máquinas. A camada de plataforma é dona das primitivas — RBAC, observabilidade, ciclo de vida — que tornam o contexto confiável. Sem L1, o contexto apodrece silenciosamente e os agentes raciocinam sobre dados obsoletos e errados. O DataHub 2025 encontrou que 88% dos líderes de dados priorizam contexto como seu maior investimento para 2026, mas 61% relatam que a qualidade dos dados bloqueia a IA na prática.

L3 — Camada Cognitiva contém os modelos e serviços de raciocínio que consomem contexto para produzir saídas: foundation models (GPT-4o, Claude, Llama, Mistral), modelos fine-tuned, serviços de embedding e pipelines de avaliação — todos mediados por um model gateway provisionado e governado pela camada de plataforma.

L4 — Camada de Intenção é a representação codificada do que a empresa quer, expressa em formato contra o qual agentes conseguem planejar. Intenção sem contexto é alucinação; contexto sem intenção é descrição sem direção. As entregas incluem ferramental de Spec-Driven Development, requisitos em notação EARS, princípios de Constitutional AI e contratos de escopo de permissão de agentes.

L5 — Camada Agêntica é a camada visível para a maior parte do investimento em IA em 2026 — agentes autônomos, orientados a objetivo, que combinam intenção, contexto e cognição para agir. É também a camada com maior probabilidade de falhar quando as camadas abaixo dela estão ausentes.

Você não constrói a camada N+1 mais rápido do que a camada N. Uma organização que pula para a camada agêntica sem ter as camadas de plataforma, contexto e intenção no lugar não produz agentes — produz uma bagunça amplificada.

Os Quatro Pilares CNCF como semântica de governança

Os Quatro Pilares CNCF de Engenharia de Plataforma — Golden Paths, Guardrails, Safety Nets e Manual Review — foram originalmente desenhados para entrega dirigida por humanos. Em 2026 são reexpressos como o plano de controle para entrega dirigida por IA.

Golden Paths são fluxos de trabalho opinados e self-service que levam um desenvolvedor de “quero construir X” até um sistema funcionando e em conformidade em minutos. Um Golden Path não é apenas um template; ele codifica a melhor prática atual da empresa para um resultado específico, versionado e melhorável. Para agentes, os Golden Paths se tornam a superfície de execução sancionada — os templates pelos quais os agentes são instanciados. Se não é um Golden Path, o agente não executa.

Guardrails tornam o errado difícil de fazer. Políticas aplicadas no admission — Policy-as-Code via OPA Gatekeeper, Kyverno e Azure Policy; Network Security Groups; Workload Identity substituindo credenciais de serviço de longa duração; admission controllers que rejeitam workloads não assinados. Para agentes, os Guardrails se tornam as políticas que os agentes devem satisfazer em runtime: escopo de permissão, acesso a dados, filtragem de saída. O campo de contenção do agente.

Safety Nets detectam, recuperam e contêm o raio de impacto. Reconciliação GitOps (ArgoCD, Flux) que devolve o cluster ao estado declarado. Stacks de observabilidade expõem anomalias. Entrega progressiva (canary, blue-green, feature flags) limita a exposição. Para agentes, os Safety Nets se tornam os loops de reconciliação que corrigem desvios: recuperação de prompt injection, circuit breakers de custo, validação de saída e freeze por SLO.

Manual Review cria checkpoints explícitos de humano no loop para decisões que não devem ser automatizadas. Gates de promoção entre ambientes (dev sincroniza automático, staging com gate, produção exige aprovação), fluxos de Change Advisory Board e gates de custo acima do limite. Para agentes, o Manual Review se torna o fluxo de aprovação para expansão de capacidade de agentes — o equivalente em IA de um deploy elevado para produção, com responsabilidade atribuída a humanos identificados por design.

PilarPara desenvolvedores humanos (2022)Para agentes autônomos (2026)
Golden PathsTemplates de serviço, scaffoldsSuperfície de execução sancionada
GuardrailsPrevenção de má configuraçãoContenção de escalação autônoma
Safety NetsRollback, entrega progressivaRollback de decisão, freeze por SLO
Manual ReviewCode review no PRGates de aprovação em ações irreversíveis

O plano de controle não precisa ser inventado. Precisa ser reexpresso como o sistema operacional da população de agentes.

Modos de falha quando a fundação é fraca

Quando a camada de plataforma é fraca, cinco modos de falha específicos e repetíveis aparecem. Todos compartilham a mesma causa estrutural: a IA opera mais rápido do que processos ad hoc conseguem governar.

Dívida tripla — a IA acumula simultaneamente dívida técnica (código gerado por IA sem disciplina de code review), dívida cognitiva (conhecimento não codificado e fragmentado em prompts e threads do Slack) e dívida de intenção (objetivos e políticas implícitas, contraditórias ou sem documentação). Três dívidas compõem em paralelo e nenhuma resolve as outras.

Plataformas-sombra — quando a plataforma central é inutilizável, os times constroem a deles. CI/CD sob medida por time, módulos Terraform conflitantes, cinco forks diferentes de servidor MCP sem registro canônico, cada squad pagando pela própria stack de observabilidade. O custo distribuído é invisível em qualquer linha de orçamento individual, mas agrega para 2 a 3x o orçamento de uma plataforma real.

Apodrecimento de contexto — service catalogs, documentação e lineage apodrecem ambientalmente em qualquer empresa. Sem o ferramental para medir esse apodrecimento (métricas de freshness, cobertura de ownership, cobertura de documentação) e o fluxo para corrigi-lo, agentes de IA raciocinam sobre contexto apodrecido e produzem respostas plausíveis, porém erradas, em escala.

Regressão de segurança — o Global Threat Report 2026 da CrowdStrike documenta uma descoberta específica: organizações que implantaram assistentes de código com IA antes de amadurecer a postura de segurança da plataforma tiveram +38% de vulnerabilidades exploráveis nos primeiros 12 meses. A regressão desaparece em organizações onde a plataforma aplica controles de supply-chain e de política no admission.

O problema 100:1 — até 2028, a razão agente-humano deve atingir 100:1. Supervisão manual de ciclo de vida de agentes, credenciais e auditoria deixa de ser viável nessa proporção. A única resposta estrutural é uma plataforma que trate agentes como workloads de primeira classe e os governe na velocidade da plataforma, não na velocidade humana.

O Mandato Duplo de 2026

Os times de plataforma em 2026 carregam dois workstreams simultâneos.

Mandato A — Aumentar a plataforma com IA. Usar IA para deixar a própria plataforma melhor: agentes que triagem alertas, propõem correções de runbook, sugerem mudanças em Terraform, roteiam incidentes; agentes na IDE que geram invocações de Golden Path, explicam erros de plataforma, produzem boilerplate. O objetivo é elevar a velocidade interna do time de plataforma para que melhorias sejam entregues mais rápido.

Mandato B — Habilitar workloads de IA em escala. Expor capacidades de IA — inferência, vector storage, runtime de agente, avaliação, observabilidade — como primitivas de plataforma de primeira classe que times de aplicação consomem via Golden Paths. O objetivo é elevar a velocidade externa dos times de aplicação para que produtos que usam IA sejam entregues mais rápido.

Uma plataforma que executa apenas o Mandato A produz um time de plataforma mais rápido. Uma plataforma que executa apenas o Mandato B se torna o gargalo. Plataformas maduras executam os dois.

Open Horizons: o acelerador

O Open Horizons é um único repositório template no GitHub que comprime o tempo desde a infraestrutura Azure crua até uma Plataforma Agentic DevOps em produção de 9 a 18 meses para 90 a 180 dias. Em números: mais de 120 arquivos, 16 módulos Terraform, 22 templates de Golden Path, 17 agentes GitHub Copilot Chat, mais de 30 regras de alerta, 15 servidores MCP, mais de 20 mil linhas de código e 16 operational skills. Uma empresa que adota o Open Horizons não escreve uma plataforma do zero; customiza um ponto de partida com opinião embutida — uma diferença de ordem de grandeza em custo, tempo e risco.

A arquitetura segue os Three Horizons:

  • H1 — Fundação (Dias 0–90): AKS, VNet zero-trust, Azure Key Vault, ACR, PostgreSQL, Redis, Defender for Cloud, gestão de custo, nomenclatura CAF, OPA Gatekeeper. Seis templates.
  • H2 — Enhancement (Meses 3–6): ArgoCD GitOps, Backstage IDP, Prometheus + Grafana, External Secrets, GitHub self-hosted runners, NGINX + cert-manager. Nove templates.
  • H3 — Innovation (Meses 6–12): Azure AI Foundry, aplicações RAG, sistemas multi-agente, pipelines MLOps, extensões do GitHub Copilot. Sete templates.

Cada template H3 herda as primitivas de H1 e H2. Um foundry-agent é, estruturalmente, um microsserviço mais um model binding mais um pipeline de avaliação — não uma arquitetura separada.

Os 17 agentes Copilot Chat — @architect, @terraform, @devops, @platform, @deploy, @sre, @security, @reviewer, @test, @docs, @onboarding, @backstage-expert, @github-integration, @ado-integration, @template-engineer, @context-architect e @hybrid-scenarios — executam o Mandato Duplo ao longo de todo o ciclo de vida da plataforma.

Modelo de maturidade e mensuração

O CNCF Platform Engineering Maturity Model define cinco níveis em cinco dimensões: Investimento, Adoção, Interfaces, Operações e Mensuração. O estado-alvo — AI-Native (Nível 5) — é caracterizado por orçamento de mandato duplo, agentes adotando as interfaces de plataforma em escala, operações conduzidas por agentes com revisão humana e mensuração cobrindo métricas DORA mais ROI de IA mais saúde dos agentes. É o único nível que fecha o mandato duplo.

A sequência: 90 dias, 6 meses, 12 meses

O roadmap é concreto e sequenciado. Dias 0–90: cluster AKS provisionado com Terraform, Backstage implantado com Golden Paths H1 disponíveis, ArgoCD com políticas de sincronização por ambiente, dashboard da plataforma com Prometheus + Grafana no ar, três times integrados, métricas DORA ativas e tempo-até-primeiro-PR abaixo de um dia. Meses 3–6: serviços de plataforma H2 e Golden Paths. Meses 6–12: capacidades de IA H3 em escala.

A fórmula é direta: Engenharia de Plataforma mais Open Horizons é igual a Plataforma Agentic DevOps. A pergunta não é mais se a fundação deve ser construída. É em que velocidade. A resposta, para empresas dispostas a se comprometer, é 90 a 180 dias.

La fundación es decisiva en 2026

Tres cosas son simultáneamente verdaderas sobre la IA enterprise en 2026. La adopción de IA es universal — el 40% de las aplicaciones enterprise incluirán agentes de IA especializados para 2026, partiendo de menos del 5% en 2024, y el 78% de las organizaciones ya usa IA en al menos una función (Gartner/McKinsey 2025). La mayoría de los proyectos de IA fracasan en producción — el 95% de los pilotos de GenAI no entregan valor medible, y Gartner proyecta que el 40% de los proyectos de IA agéntica serán cancelados para 2027 por costo, valor poco claro y controles de riesgo débiles. Y sin embargo, las organizaciones con plataformas maduras son las que están teniendo éxito — DORA 2025 encuestó a 39.000 profesionales y encontró 90% de adopción de IDP entre los de alto rendimiento, con las ganancias de productividad de IA condicionadas a la madurez de entrega.

El patrón no es coincidencia. Las organizaciones que están teniendo éxito con IA son las que invirtieron en Ingeniería de Plataforma antes de invertir en IA a escala.

El CTO de la CNCF, Chris Aniszczyk, lo expresó claramente en KubeCon Europe 2026: “Los agentes amplifican lo que es bueno o malo en tu ecosistema. La pregunta no es si adoptas agentes. La pregunta es si tu fundación puede cargar su peso.”

DORA 2025 hace cuantitativas las consecuencias. Las organizaciones que agregaron IA sobre Plataformas Internas de Desarrollo maduras vieron +98% de throughput de PRs versus la línea base. Las organizaciones que agregaron las mismas herramientas de IA sin fundación de plataforma experimentaron +242,7% de incidentes por pull request y +441% en ciclos de revisión de código más largos. Mismo modelo, mismos prompts — la plataforma es el diferenciador. Los performers de élite ven una ganancia neta de +20 a 30% con IA; los performers bajos van a negativo neto.

Seis estudios independientes — DORA, MIT NANDA, Gartner, CNCF, McKinsey/Forrester e IDC — convergen en el mismo hallazgo: la plataforma determina si la IA tiene éxito o fracasa. IDC (feb. 2026) encontró que el 73% de las organizaciones carece de los prerequisitos de plataforma para la IA agéntica, con solo el 8% ejecutando IA agéntica en producción. McKinsey y Forrester documentan ROI 2,5x más rápido y tiempo a producción 4 a 6x menor en organizaciones con plataformas maduras.

La pirámide de cinco capas de la empresa AI-nativa

La empresa AI-nativa tiene una arquitectura de cinco capas con orden de dependencia estricta. Cada capa depende de la que está debajo y solo tiene sentido cuando esa dependencia se cumple.

L1 — Ingeniería de Plataforma es el sustrato self-service, gobernado por políticas y observable, que abstrae la complejidad de infraestructura en primitivas usables por los desarrolladores. Sus salidas son Golden Paths, Guardrails, Safety Nets y flujos de Manual Review. Sin esta capa, nada por encima de ella es confiable. Las entregas incluyen: portal Backstage, CI/CD como código, Policy-as-Code (OPA Gatekeeper), Observabilidad (Prometheus, Grafana, OpenTelemetry), GitOps (ArgoCD), Workload Identity, atribución de costos y documentación-como-código.

L2 — Capa de Contexto es la representación codificada del conocimiento, los datos y las decisiones de la empresa en forma consumible por máquinas. La capa de plataforma posee las primitivas — RBAC, observabilidad, ciclo de vida — que hacen que el contexto sea confiable. Sin L1, el contexto se deteriora silenciosamente y los agentes razonan sobre datos obsoletos y erróneos. DataHub 2025 encontró que el 88% de los líderes de datos priorizan el contexto como su mayor inversión para 2026, pero el 61% reporta que la calidad de datos bloquea la IA en la práctica.

L3 — Capa Cognitiva contiene los modelos y servicios de razonamiento que consumen contexto para producir salidas: foundation models (GPT-4o, Claude, Llama, Mistral), modelos fine-tuned, servicios de embedding y pipelines de evaluación — todos mediados por un model gateway provisionado y gobernado por la capa de plataforma.

L4 — Capa de Intención es la representación codificada de lo que la empresa quiere, expresada en una forma contra la que los agentes pueden planificar. Intención sin contexto es alucinación; contexto sin intención es descripción sin dirección. Las entregas incluyen herramientas de Spec-Driven Development, requisitos en notación EARS, principios de Constitutional AI y contratos de alcance de permisos de agentes.

L5 — Capa Agéntica es la capa visible para la mayor parte de la inversión en IA en 2026 — agentes autónomos, orientados a objetivos, que combinan intención, contexto y cognición para tomar acción. También es la capa con más probabilidad de fallar cuando las capas debajo de ella faltan.

No se puede construir la capa N+1 más rápido que la capa N. Una organización que salta a la capa agéntica sin tener las capas de plataforma, contexto e intención en su lugar no produce agentes — produce un desorden amplificado.

Los Cuatro Pilares CNCF como semántica de gobernanza

Los Cuatro Pilares CNCF de Ingeniería de Plataforma — Golden Paths, Guardrails, Safety Nets y Manual Review — fueron originalmente diseñados para entrega dirigida por humanos. En 2026 se reexpresan como el plano de control para entrega dirigida por IA.

Golden Paths son flujos de trabajo opinados y self-service que llevan a un desarrollador de “quiero construir X” a un sistema funcionando y en conformidad en minutos. Un Golden Path no es solo un template; codifica la mejor práctica actual de la empresa para un resultado específico, versionado y mejorable. Para los agentes, los Golden Paths se convierten en la superficie de ejecución sancionada — los templates mediante los cuales se instancian los agentes. Si no es un Golden Path, el agente no lo ejecuta.

Guardrails hacen que lo incorrecto sea difícil de hacer. Políticas aplicadas en admission — Policy-as-Code vía OPA Gatekeeper, Kyverno y Azure Policy; Network Security Groups; Workload Identity reemplazando credenciales de servicio de larga duración; admission controllers que rechazan workloads sin firma. Para los agentes, los Guardrails se convierten en las políticas que los agentes deben satisfacer en runtime: alcance de permisos, acceso a datos, filtrado de salida. El campo de contención del agente.

Safety Nets detectan, recuperan y contienen el radio de impacto. Reconciliación GitOps (ArgoCD, Flux) que devuelve el cluster al estado declarado. Stacks de observabilidad exponen anomalías. Entrega progresiva (canary, blue-green, feature flags) limita la exposición. Para los agentes, los Safety Nets se convierten en los loops de reconciliación que corrigen desviaciones: recuperación de prompt injection, circuit breakers de costo, validación de salida y freeze por SLO.

Manual Review crea checkpoints explícitos de humano en el loop para decisiones que no deben automatizarse. Gates de promoción de ambientes (dev sincroniza automático, staging con gate, producción exige aprobación), flujos de Change Advisory Board y gates de costo sobre umbral. Para los agentes, el Manual Review se convierte en el flujo de aprobación para la expansión de capacidades de agentes — el equivalente en IA de un deploy elevado a producción, con la responsabilidad permaneciendo en humanos identificados por diseño.

PilarPara desarrolladores humanos (2022)Para agentes autónomos (2026)
Golden PathsTemplates de servicio, scaffoldsSuperficie de ejecución sancionada
GuardrailsPrevención de mala configuraciónContención de escalación autónoma
Safety NetsRollback, entrega progresivaRollback de decisión, freeze por SLO
Manual ReviewCode review en PRGates de aprobación en acciones irreversibles

El plano de control no necesita inventarse. Necesita ser reexpresado como el sistema operativo de la población de agentes.

Modos de fallo cuando la fundación es débil

Cuando la capa de plataforma es débil, aparecen cinco modos de fallo específicos y repetibles. Todos comparten la misma causa estructural: la IA opera más rápido de lo que los procesos ad hoc pueden gobernar.

Deuda triple — la IA acumula simultáneamente deuda técnica (código generado por IA sin disciplina de code review), deuda cognitiva (conocimiento no codificado y fragmentado en prompts y hilos de Slack) y deuda de intención (objetivos y políticas implícitas, contradictorias o sin documentar). Tres deudas se componen en paralelo y ninguna resuelve las otras.

Plataformas sombra — cuando la plataforma central es inutilizable, los equipos construyen la suya propia. CI/CD a medida por equipo, módulos Terraform en conflicto, cinco forks distintos de servidor MCP sin registro canónico, cada squad pagando por su propia stack de observabilidad. El costo distribuido es invisible en cualquier línea presupuestaria individual, pero agrega hasta 2 a 3 veces el presupuesto de una plataforma real.

Deterioro de contexto — service catalogs, documentación y lineage se deterioran ambientalmente en cualquier empresa. Sin el tooling para medir ese deterioro (métricas de freshness, cobertura de ownership, cobertura de documentación) y el flujo para corregirlo, los agentes de IA razonan sobre contexto deteriorado y producen respuestas plausibles pero erróneas a escala.

Regresión de seguridad — el Global Threat Report 2026 de CrowdStrike documenta un hallazgo específico: las organizaciones que desplegaron asistentes de código con IA antes de madurar su postura de seguridad de plataforma experimentaron +38% de vulnerabilidades explotables en los primeros 12 meses. La regresión desaparece en las organizaciones donde la plataforma aplica controles de supply-chain y de política en admission.

El problema 100:1 — para 2028, la razón agente-humano está proyectada a alcanzar 100:1. La supervisión manual del ciclo de vida de agentes, credenciales y auditoría deja de ser factible a esa proporción. La única respuesta estructural es una plataforma que trate a los agentes como workloads de primera clase y los gobierne a velocidad de plataforma, no a velocidad humana.

El Mandato Doble de 2026

Los equipos de plataforma en 2026 llevan dos workstreams simultáneos.

Mandato A — Aumentar la plataforma con IA. Usar IA para hacer que la propia plataforma sea mejor: agentes que clasifican alertas, proponen correcciones de runbook, sugieren cambios en Terraform, enrutan incidentes; agentes en la IDE que generan invocaciones de Golden Path, explican errores de plataforma, producen boilerplate. El objetivo es elevar la velocidad interna del equipo de plataforma para que las mejoras se entreguen más rápido.

Mandato B — Habilitar workloads de IA a escala. Exponer capacidades de IA — inferencia, vector storage, runtime de agente, evaluación, observabilidad — como primitivas de plataforma de primera clase que los equipos de aplicación consumen vía Golden Paths. El objetivo es elevar la velocidad externa de los equipos de aplicación para que los productos que usan IA se entreguen más rápido.

Una plataforma que ejecuta solo el Mandato A produce un equipo de plataforma más rápido. Una plataforma que ejecuta solo el Mandato B se convierte en el cuello de botella. Las plataformas maduras ejecutan ambos.

Open Horizons: el acelerador

Open Horizons es un único repositorio template en GitHub que comprime el tiempo desde la infraestructura Azure cruda hasta una Plataforma Agentic DevOps en producción de 9 a 18 meses a 90 a 180 días. En números: más de 120 archivos, 16 módulos Terraform, 22 templates de Golden Path, 17 agentes GitHub Copilot Chat, más de 30 reglas de alerta, 15 servidores MCP, más de 20.000 líneas de código y 16 operational skills. Una empresa que adopta Open Horizons no escribe una plataforma desde cero; personaliza un punto de partida con opinión embebida — una diferencia de orden de magnitud en costo, tiempo y riesgo.

La arquitectura sigue los Three Horizons:

  • H1 — Fundación (Días 0–90): AKS, VNet zero-trust, Azure Key Vault, ACR, PostgreSQL, Redis, Defender for Cloud, gestión de costos, nomenclatura CAF, OPA Gatekeeper. Seis templates.
  • H2 — Enhancement (Meses 3–6): ArgoCD GitOps, Backstage IDP, Prometheus + Grafana, External Secrets, GitHub self-hosted runners, NGINX + cert-manager. Nueve templates.
  • H3 — Innovation (Meses 6–12): Azure AI Foundry, aplicaciones RAG, sistemas multi-agente, pipelines MLOps, extensiones de GitHub Copilot. Siete templates.

Cada template H3 hereda las primitivas de H1 y H2. Un foundry-agent es, estructuralmente, un microservicio más un model binding más un pipeline de evaluación — no una arquitectura separada.

Los 17 agentes Copilot Chat — @architect, @terraform, @devops, @platform, @deploy, @sre, @security, @reviewer, @test, @docs, @onboarding, @backstage-expert, @github-integration, @ado-integration, @template-engineer, @context-architect y @hybrid-scenarios — ejecutan el Mandato Doble a lo largo de todo el ciclo de vida de la plataforma.

Modelo de madurez y medición

El CNCF Platform Engineering Maturity Model define cinco niveles en cinco dimensiones: Inversión, Adopción, Interfaces, Operaciones y Medición. El estado objetivo — AI-Native (Nivel 5) — se caracteriza por un presupuesto de mandato doble, agentes adoptando las interfaces de plataforma a escala, operaciones conducidas por agentes con revisión humana y medición que cubre métricas DORA más ROI de IA más salud de agentes. Es el único nivel que cierra el mandato doble.

La secuencia: 90 días, 6 meses, 12 meses

El roadmap es concreto y secuenciado. Días 0–90: cluster AKS provisionado con Terraform, Backstage desplegado con Golden Paths H1 disponibles, ArgoCD con políticas de sincronización por ambiente, dashboard de plataforma con Prometheus + Grafana activo, tres equipos integrados, métricas DORA activas y tiempo-hasta-primer-PR por debajo de un día. Meses 3–6: servicios de plataforma H2 y Golden Paths. Meses 6–12: capacidades de IA H3 a escala.

La fórmula es directa: Ingeniería de Plataforma más Open Horizons es igual a Plataforma Agentic DevOps. La pregunta ya no es si construir la fundación. Es a qué velocidad. La respuesta, para empresas dispuestas a comprometerse, es 90 a 180 días.

← Knowledge Hub

Paula Silva | Software Global Black Belt

Start with the platform, not the agents. Comece pela plataforma, não pelos agentes. Comience por la plataforma, no por los agentes.

Building the future of software development with AI and Agentic DevOps.

Knowledge Hub · v3.4.0 · 2026-06-17
paulasilva · 2026-06-17 EN · PT-BR · ES