Paula Silva Software Global Black Belt
LinkedIn

Agentic DevOps PlatformPlataforma Agentic DevOpsPlataforma Agentic DevOps

Why 95% of AI pilots fail and platform-mature organizations succeed — and how Open Horizons compresses the path from raw infrastructure to production AI workloads from 9–18 months to 90–180 days.Por que 95% dos pilotos de IA falham e organizações maduras em plataforma têm sucesso — e como o Open Horizons comprime o caminho da infraestrutura bruta até cargas de trabalho de IA em produção de 9–18 meses para 90–180 dias.Por qué el 95% de los pilotos de IA fracasan y las organizaciones maduras en plataforma tienen éxito — y cómo Open Horizons comprime el camino desde infraestructura bruta hasta cargas de trabajo de IA en producción de 9–18 meses a 90–180 días.

Why the foundation is decisive in 2026

Three things are simultaneously true in 2026. AI adoption is universal — 78% of organizations now use AI in at least one function, and Gartner projects that 40% of enterprise applications will include task-specific AI agents by 2026, up from less than 5% in 2024. Most AI projects still fail in production — 95% of GenAI pilots fail to deliver measurable value (MIT NANDA, 2025), and Gartner estimates that 40% of agentic AI projects will be cancelled by 2027 due to cost, unclear value, and weak risk controls. And yet platform-mature organizations are consistently the ones succeeding.

The pattern is not coincidence. DORA 2025 — surveying 39,000 practitioners — found 90% IDP adoption among high-performing organizations and a direct relationship between platform maturity and AI productivity gains. The mechanism is amplification: AI does not independently improve delivery capability. It amplifies what already exists. In mature systems, the same AI assistant produces +98% PR throughput. In weak systems, the identical tool produces +242.7% incidents per pull request and +441% longer code review cycles. Same input. Opposite outcomes. The platform is the differentiator.

As CNCF CTO Chris Aniszczyk observed at KubeCon Europe 2026: “Agents amplify what is good or bad in your ecosystem. The question is not whether you adopt agents. The question is whether your foundation can carry their weight.”

The five-layer pyramid of the AI-native enterprise

Every AI-native enterprise rests on five layers arranged in strict dependency order. You cannot build layer N+1 faster than layer N — or, more precisely, you can only build them in parallel if you accept the debt that comes from skipping the gap.

  • L1 — Platform Engineering: The self-service, policy-governed, observable substrate. Outputs: Golden Paths, Guardrails, Safety Nets, and Manual Review Workflows. Concrete artifacts: Backstage portal, GitOps via Argo CD, Policy-as-Code (OPA Gatekeeper + Kyverno + Azure Policy), observability (Prometheus, Grafana, OpenTelemetry), Workload Identity, cost attribution, service catalog, documentation-as-code.
  • L2 — Context Layer: Codified enterprise knowledge in machine-consumable form. Backstage catalog, TechDocs, MCP servers, vector stores (pgvector, Azure AI Search), lineage tracking (Purview, DataHub), embedding pipelines, freshness metrics. Depends on L1 because the platform owns the RBAC, observability, and lifecycle primitives that make context trustworthy.
  • L3 — Cognitive Layer: Foundation models (GPT-4o, Claude, Llama, Mistral), fine-tuned models, embedding services, evaluation pipelines, all mediated through a model gateway that the platform provisions and governs. Azure AI Foundry / GitHub Models, cost circuit breakers, prompt logging, output filtering.
  • L4 — Intent Layer: Codified goals, policies, and specifications that agents can plan against. Intent without context is hallucination; context without intent is description without direction. Spec-Driven Development, EARS notation requirements, Constitutional AI principles, agent permission scope contracts.
  • L5 — Agentic Layer: Autonomous, goal-driven agents combining intent, context, and cognition to take action. This is the visible layer for most AI investment in 2026 — and the layer most likely to fail when the layers beneath it are missing.

An organization that jumps to L5 without L1–L4 in place does not produce agents. It produces an amplified mess.

CNCF Four Pillars as the control plane for AI

The CNCF Platform Engineering framework defines four pillars that were designed for human-driven delivery and, in 2026, are re-expressed as the control plane for AI-driven delivery.

PillarFor human developers (2022)For autonomous agents (2026)
Golden PathsService templates, scaffoldsSanctioned execution surface
GuardrailsMisconfiguration preventionAutonomous escalation containment
Safety NetsRollback, progressive deliveryDecision-level rollback, SLO freeze
Manual ReviewCode review on PRApproval gates on irreversible actions

Golden Paths are opinionated, self-service workflows that get a developer (or agent) from “I want to build X” to a working, compliant system in minutes. They are not templates — they are templates that encode the enterprise’s current best practice for a specific outcome, versioned and improvable. For agents, Golden Paths become the scaffolds by which agents are instantiated. If it is not a Golden Path, the agent does not run it.

Guardrails are preventive, not detective. Policies enforced at admission: OPA Gatekeeper + Kyverno, Network Security Groups, Workload Identity replacing long-lived credentials, image and supply-chain policy with admission controllers rejecting unsigned workloads. For agents, guardrails become the policies agents must satisfy at runtime: permission scope, data access, output filtering — the agent containment field.

Safety Nets detect and recover from failures that guardrails did not prevent. GitOps reconciliation returns cluster state to declared state. Observability stacks surface anomalies. Progressive delivery (canary, blue-green, feature flags) contains blast radius. For agents, safety nets become reconciliation loops that correct drift: prompt-injection recovery, cost circuit breakers, output validation, SLO-driven freeze.

Manual Review creates explicit human-in-the-loop checkpoints for decisions that should not be automated — and these checkpoints become more important, not less, as AI accelerates everything. Environment promotion gates (dev auto-sync, staging gated, production requires approval). For agents, manual review becomes the approval workflow for capability expansion: the AI equivalent of an elevated production deploy.

The control plane does not need to be invented. It needs to be re-expressed as the operating system for the agent population.

Failure modes when the foundation is weak

When the platform layer is weak, five specific failure modes appear with regularity. The structural cause is consistent: AI operates faster than ad-hoc processes can govern.

Triple debt accumulation: AI simultaneously generates technical debt (AI-generated code without review discipline), cognitive debt (knowledge that exists only in prompts and Slack threads, un-codified), and intent debt (goals that are implicit, contradictory, or undocumented). Three debts accumulate in parallel; none resolves the others.

Shadow platforms: When the central platform is unusable, teams build their own. The result: bespoke CI/CD per team, conflicting Terraform modules, five different MCP server forks, duplicate observability stacks. The distributed cost is invisible in any single budget line but 2–3x the cost of a real platform in aggregate.

Context rot: Service catalogs, documentation, and lineage degrade silently. Without platform tooling to measure rot (freshness metrics, ownership coverage) and the workflow to correct it, AI agents reason over stale context and produce plausible but wrong answers at scale.

Security regression: CrowdStrike’s 2026 Global Threat Report documents that organizations deploying AI coding assistants before maturing their platform security posture experienced a +38% increase in exploitable vulnerabilities in the first 12 months. The regression disappears in organizations where the platform enforces supply-chain and policy controls at admission.

The 100:1 problem: By 2028, the agent-to-human ratio reaches 100:1. Manual supervision of agent lifecycle, credentials, and audit does not scale. The only structural answer is a platform that treats agents as first-class workloads and governs them at platform speed rather than human speed.

The 2026 Dual Mandate for platform teams

Platform teams in 2026 carry two simultaneous responsibilities. Mandate A is to augment the platform with AI — using agents to triage alerts, draft runbook fixes, propose Terraform changes, route incidents, and generate Golden Path invocations in-IDE. The goal is to raise internal velocity so platform improvements ship faster. Mandate B is to enable AI workloads at scale — exposing inference, vector storage, agent runtime, evaluation, and observability as first-class platform primitives that application teams consume through Golden Paths. The goal is to raise external velocity so AI-using products ship faster.

A platform that executes only Mandate A produces a faster platform team. A platform that executes only Mandate B becomes the bottleneck. Mature platforms execute both.

Open Horizons: the CNCF OSS accelerator

Open Horizons is the executable form of everything described above. It is a single GitHub template repository that provisions a complete Agentic DevOps Platform on Azure using CNCF OSS components, co-supported by Microsoft. The numbers:

  • 120+ files, 20,000+ lines of code
  • 16 Terraform modules covering the full AKS + Backstage substrate
  • 22 Golden Path templates across three horizons
  • 17 GitHub Copilot Chat agents wired for the Dual Mandate
  • 13 MCP server configurations
  • 30+ alerting rules, 3 pre-built Grafana dashboards, 16 operational skills

The architecture follows three horizons. H1 (Foundation, days 0–90): AKS, VNet zero-trust, Azure Key Vault, ACR, PostgreSQL, Redis, Defender for Cloud, OPA Gatekeeper + Kyverno — 6 templates. H2 (Enhancement, months 3–6): Argo CD, Backstage IDP, Prometheus + Grafana, Tekton Pipelines, Istio service mesh, Sigstore + SLSA + syft supply chain, NGINX + cert-manager — 9 templates. H3 (Innovation, months 6–12): Azure AI Foundry, RAG applications, multi-agent systems, MLOps pipelines, GitHub Copilot extensions — 7 templates.

Every H3 template inherits H1 and H2 primitives. A foundry-agent is structurally a microservice plus a model binding plus an evaluation pipeline — not a separate architecture. An organization adopting Open Horizons does not write a platform from scratch. It customizes an opinionated starting point. That is an order-of-magnitude difference in cost, time, and risk.

Maturity model and measurement

The CNCF Platform Engineering Maturity Model provides five levels across five dimensions: Investment, Adoption, Interfaces, Operations, and Measurement. The target state — AI-Native (Level 5) — is the only level that closes the Dual Mandate. At that level: investment has a dual-mandate budget structure; adoption includes agents at scale consuming the same Golden Paths as human developers; operations are agent-operated with human review; and measurement spans DORA Four Keys, AI ROI, and agent health.

You cannot manage what you do not measure. DORA Four Key Metrics (deployment frequency, lead time for changes, change failure rate, time to restore service) act as the filter through which AI effects are observed. Elite performers in DORA 2025 see +20–30% productivity gains from AI. Low performers go net negative.

The 90–180-day sequence

The roadmap is concrete and sequenced. Days 0–90 (H1 Foundation): AKS cluster with Terraform, Key Vault, ACR, VNet, Workload Identity; Backstage with H1 Golden Paths; Argo CD with environment-specific sync policies; Prometheus + Grafana platform dashboard; three teams onboarded; DORA metrics live. Target output: time-to-first-PR under one day. Months 3–6 (H2 Enhancement): full platform services layer, supply-chain security, service mesh, all CNCF Four Pillars wired. Months 6–12 (H3 Innovation): AI capabilities at scale — RAG applications, multi-agent systems, MLOps, GitHub Copilot extensions.

The formula: Platform Engineering + Open Horizons = Agentic DevOps Platform. The question is no longer whether to build the foundation. It is how fast. For enterprises willing to commit, the answer is 90 to 180 days.

IDC estimates that 73% of organizations lack the platform prerequisites for agentic AI and only 8% have AI workloads in production. The gap is an order of magnitude. McKinsey and Forrester document 2.5x faster ROI and 4–6x faster time to production in platform-mature organizations. The evidence does not say “platform helps with AI.” It says platform determines whether AI succeeds or fails.

Start with H1. Commit to the platform before the agents.

Por que a fundação é decisiva em 2026

Três fatos são simultaneamente verdadeiros em 2026. A adoção de IA é universal — 78% das organizações já usam IA em pelo menos uma função, e a Gartner projeta que 40% dos aplicativos corporativos incluirão agentes de IA para tarefas específicas até 2026, ante menos de 5% em 2024. A maioria dos projetos de IA ainda falha em produção — 95% dos pilotos de GenAI não entregam valor mensurável (MIT NANDA, 2025), e a Gartner estima que 40% dos projetos de IA agêntica serão cancelados até 2027 por custo, valor indefinido e controles de risco insuficientes. E ainda assim as organizações maduras em plataforma são consistentemente as que estão obtendo sucesso.

O padrão não é coincidência. O DORA 2025 — pesquisando 39.000 profissionais — identificou 90% de adoção de IDP entre as organizações de alto desempenho e uma relação direta entre maturidade de plataforma e ganhos de produtividade com IA. O mecanismo é amplificação: a IA não melhora a capacidade de entrega de forma independente. Ela amplifica o que já existe. Em sistemas maduros, o mesmo assistente de IA produz +98% de throughput de PRs. Em sistemas frágeis, a ferramenta idêntica produz +242,7% de incidentes por pull request e ciclos de revisão de código 441% mais longos. Mesmo insumo. Resultados opostos. A plataforma é o diferencial.

Como observou Chris Aniszczyk, CTO da CNCF, na KubeCon Europe 2026: “Agentes amplificam o que é bom ou ruim no seu ecossistema. A questão não é se você vai adotar agentes. A questão é se sua fundação consegue suportar o peso deles.”

A pirâmide de cinco camadas da empresa AI-native

Toda empresa AI-native repousa sobre cinco camadas em ordem de dependência estrita. Você não pode construir a camada N+1 mais rápido do que a camada N — ou, mais precisamente, só pode construí-las em paralelo se aceitar a dívida gerada pela lacuna.

  • L1 — Platform Engineering: O substrato self-service, governado por políticas e observável. Entregáveis: Golden Paths, Guardrails, Safety Nets e Fluxos de Revisão Manual. Artefatos concretos: portal Backstage, GitOps via Argo CD, Policy-as-Code (OPA Gatekeeper + Kyverno + Azure Policy), observabilidade (Prometheus, Grafana, OpenTelemetry), Workload Identity, atribuição de custos, catálogo de serviços, documentação como código.
  • L2 — Camada de Contexto: Conhecimento corporativo codificado em formato consumível por máquinas. Catálogo Backstage, TechDocs, servidores MCP, stores vetoriais (pgvector, Azure AI Search), rastreamento de linhagem (Purview, DataHub), pipelines de embedding, métricas de atualidade. Depende do L1 porque a plataforma detém os primitivos de RBAC, observabilidade e ciclo de vida que tornam o contexto confiável.
  • L3 — Camada Cognitiva: Modelos de fundação (GPT-4o, Claude, Llama, Mistral), modelos fine-tuned, serviços de embedding, pipelines de avaliação, todos mediados por um gateway de modelos que a plataforma provisiona e governa.
  • L4 — Camada de Intenção: Objetivos, políticas e especificações codificados contra os quais os agentes podem planejar. Intenção sem contexto é alucinação; contexto sem intenção é descrição sem direção. Spec-Driven Development, requisitos em notação EARS, princípios de Constitutional AI, contratos de escopo de permissão de agentes.
  • L5 — Camada Agêntica: Agentes autônomos e orientados a objetivos que combinam intenção, contexto e cognição para agir. Esta é a camada visível para a maior parte do investimento em IA em 2026 — e a camada com maior probabilidade de falhar quando as camadas abaixo estão ausentes.

Uma organização que pula para o L5 sem o L1–L4 no lugar não produz agentes. Produz uma bagunça amplificada.

Os Quatro Pilares da CNCF como plano de controle para IA

O framework de Platform Engineering da CNCF define quatro pilares que foram concebidos para entregas conduzidas por humanos e, em 2026, são reexpressos como o plano de controle para entregas conduzidas por IA.

PilarPara desenvolvedores humanos (2022)Para agentes autônomos (2026)
Golden PathsTemplates de serviço, scaffoldsSuperfície de execução sancionada
GuardrailsPrevenção de má configuraçãoContenção de escalada autônoma
Safety NetsRollback, entrega progressivaRollback a nível de decisão, congelamento por SLO
Manual ReviewRevisão de código em PRGates de aprovação em ações irreversíveis

Golden Paths são fluxos de trabalho self-service e opinados que levam um desenvolvedor (ou agente) de “quero construir X” a um sistema funcional e em conformidade em minutos. Para agentes, Golden Paths se tornam os scaffolds pelos quais os agentes são instanciados. Se não é um Golden Path, o agente não o executa.

Guardrails são preventivos, não detectivos. Políticas aplicadas na admissão: OPA Gatekeeper + Kyverno, Network Security Groups, Workload Identity substituindo credenciais de longa duração, políticas de imagem e cadeia de suprimentos com controladores de admissão rejeitando cargas de trabalho não assinadas. Para agentes, guardrails se tornam as políticas que os agentes devem satisfazer em tempo de execução: escopo de permissão, acesso a dados, filtragem de saída — o campo de contenção do agente.

Safety Nets detectam e se recuperam de falhas que os guardrails não preveniram. A reconciliação GitOps retorna o estado do cluster ao estado declarado. Stacks de observabilidade detectam anomalias. A entrega progressiva (canary, blue-green, feature flags) contém o raio de impacto. Para agentes, safety nets se tornam loops de reconciliação que corrigem desvios: recuperação de injeção de prompt, circuit breakers de custo, validação de saída, congelamento orientado por SLO.

Manual Review cria checkpoints explícitos de humano no loop para decisões que não devem ser automatizadas — e esses checkpoints se tornam mais importantes, não menos, à medida que a IA acelera tudo. Para agentes, a revisão manual se torna o fluxo de aprovação para expansão de capacidade: o equivalente em IA de um deploy elevado em produção.

O plano de controle não precisa ser inventado. Ele precisa ser reexpresso como o sistema operacional para a população de agentes.

Modos de falha quando a fundação é fraca

Quando a camada de plataforma é fraca, cinco modos de falha específicos aparecem com regularidade. A causa estrutural é consistente: a IA opera mais rápido do que processos ad hoc conseguem governar.

Acumulação tripla de dívida: A IA gera simultaneamente dívida técnica (código gerado por IA sem disciplina de revisão), dívida cognitiva (conhecimento que existe apenas em prompts e threads do Slack, não codificado) e dívida de intenção (objetivos implícitos, contraditórios ou não documentados). Três dívidas acumulam em paralelo; nenhuma resolve as outras.

Plataformas sombra: Quando a plataforma central é inutilizável, as equipes constroem a própria. O resultado: CI/CD sob medida por equipe, módulos Terraform conflitantes, cinco forks diferentes de servidores MCP, stacks de observabilidade duplicados. O custo distribuído é invisível em qualquer linha de orçamento individual, mas representa 2–3x o custo de uma plataforma real no agregado.

Apodrecimento de contexto: Catálogos de serviços, documentação e linhagem se degradam silenciosamente. Sem ferramentas de plataforma para medir o apodrecimento (métricas de atualidade, cobertura de propriedade) e o fluxo para corrigi-lo, agentes de IA raciocinam sobre contexto obsoleto e produzem respostas plausíveis, mas erradas, em escala.

Regressão de segurança: O Relatório Global de Ameaças 2026 da CrowdStrike documenta que organizações que implantaram assistentes de codificação com IA antes de amadurecer sua postura de segurança de plataforma experimentaram um aumento de 38% em vulnerabilidades exploráveis nos primeiros 12 meses. A regressão desaparece em organizações onde a plataforma aplica controles de cadeia de suprimentos e políticas na admissão.

O problema do 100:1: Até 2028, a proporção agente-humano chega a 100:1. A supervisão manual do ciclo de vida, credenciais e auditoria dos agentes não escala. A única resposta estrutural é uma plataforma que trate agentes como cargas de trabalho de primeira classe e os governe na velocidade da plataforma, não na velocidade humana.

O Duplo Mandato de 2026 para times de plataforma

Os times de plataforma em 2026 carregam duas responsabilidades simultâneas. O Mandato A é aumentar a plataforma com IA — usando agentes para triagem de alertas, rascunho de correções de runbook, propostas de mudanças no Terraform, roteamento de incidentes e geração de invocações de Golden Paths na IDE. O objetivo é aumentar a velocidade interna para que melhorias na plataforma sejam entregues mais rapidamente. O Mandato B é habilitar cargas de trabalho de IA em escala — expondo inferência, armazenamento vetorial, runtime de agentes, avaliação e observabilidade como primitivos de plataforma de primeira classe que equipes de aplicação consomem por meio de Golden Paths. O objetivo é aumentar a velocidade externa para que produtos que usam IA sejam entregues mais rapidamente.

Uma plataforma que executa apenas o Mandato A produz um time de plataforma mais rápido. Uma plataforma que executa apenas o Mandato B se torna o gargalo. Plataformas maduras executam os dois.

Open Horizons: o acelerador CNCF OSS

O Open Horizons é a forma executável de tudo descrito acima. É um único repositório de template no GitHub que provisiona uma Plataforma Agentic DevOps completa no Azure usando componentes CNCF OSS, co-suportado pela Microsoft. Os números:

  • 120+ arquivos, 20.000+ linhas de código
  • 16 módulos Terraform cobrindo todo o substrato AKS + Backstage
  • 22 templates de Golden Path em três horizontes
  • 17 agentes GitHub Copilot Chat conectados para o Duplo Mandato
  • 13 configurações de servidor MCP
  • 30+ regras de alerta, 3 dashboards Grafana pré-construídos, 16 habilidades operacionais

A arquitetura segue três horizontes. H1 (Fundação, dias 0–90): AKS, VNet zero-trust, Azure Key Vault, ACR, PostgreSQL, Redis, Defender for Cloud, OPA Gatekeeper + Kyverno — 6 templates. H2 (Aprimoramento, meses 3–6): Argo CD, Backstage IDP, Prometheus + Grafana, Tekton Pipelines, malha de serviço Istio, cadeia de suprimentos Sigstore + SLSA + syft, NGINX + cert-manager — 9 templates. H3 (Inovação, meses 6–12): Azure AI Foundry, aplicações RAG, sistemas multi-agente, pipelines de MLOps, extensões GitHub Copilot — 7 templates.

Todo template H3 herda os primitivos H1 e H2. Um foundry-agent é estruturalmente um microsserviço mais um binding de modelo mais um pipeline de avaliação — não uma arquitetura separada. Uma organização que adota o Open Horizons não escreve uma plataforma do zero. Ela personaliza um ponto de partida opinado. Isso é uma diferença de ordem de magnitude em custo, tempo e risco.

Modelo de maturidade e medição

O Modelo de Maturidade de Platform Engineering da CNCF fornece cinco níveis em cinco dimensões: Investimento, Adoção, Interfaces, Operações e Medição. O estado-alvo — AI-Native (Nível 5) — é o único nível que fecha o Duplo Mandato. Nesse nível: o investimento tem estrutura de orçamento de duplo mandato; a adoção inclui agentes em escala consumindo os mesmos Golden Paths que desenvolvedores humanos; as operações são conduzidas por agentes com revisão humana; e a medição abrange as Quatro Métricas-Chave DORA, ROI de IA e saúde dos agentes.

Você não pode gerenciar o que não mede. As Quatro Métricas-Chave DORA (frequência de deployment, lead time para mudanças, taxa de falha em mudanças, tempo para restaurar serviço) atuam como o filtro pelo qual os efeitos da IA são observados. Os performers de elite no DORA 2025 obtêm +20–30% de ganhos de produtividade com IA. Os de baixo desempenho ficam no negativo.

A sequência de 90 a 180 dias

O roadmap é concreto e sequenciado. Dias 0–90 (H1 Fundação): cluster AKS com Terraform, Key Vault, ACR, VNet, Workload Identity; Backstage com Golden Paths H1; Argo CD com políticas de sincronização por ambiente; dashboard de plataforma Prometheus + Grafana; três equipes embarcadas; métricas DORA ao vivo. Resultado esperado: tempo até o primeiro PR abaixo de um dia. Meses 3–6 (H2 Aprimoramento): camada completa de serviços de plataforma, segurança de cadeia de suprimentos, malha de serviços, todos os Quatro Pilares CNCF conectados. Meses 6–12 (H3 Inovação): capacidades de IA em escala — aplicações RAG, sistemas multi-agente, MLOps, extensões GitHub Copilot.

A fórmula: Platform Engineering + Open Horizons = Plataforma Agentic DevOps. A questão não é mais se construir a fundação. É quão rápido. Para empresas dispostas a se comprometer, a resposta é 90 a 180 dias.

O IDC estima que 73% das organizações não têm os pré-requisitos de plataforma para IA agêntica e apenas 8% têm cargas de trabalho de IA em produção. A lacuna é de uma ordem de magnitude. McKinsey e Forrester documentam ROI 2,5x mais rápido e time-to-production 4–6x mais rápido em organizações maduras em plataforma. A evidência não diz “a plataforma ajuda com IA.” Ela diz que a plataforma determina se a IA tem sucesso ou falha.

Comece pelo H1. Comprometa-se com a plataforma antes dos agentes.

Por qué la fundación es decisiva en 2026

Tres hechos son simultáneamente verdaderos en 2026. La adopción de IA es universal — el 78% de las organizaciones ya utiliza IA en al menos una función, y Gartner proyecta que el 40% de las aplicaciones empresariales incluirán agentes de IA para tareas específicas en 2026, frente a menos del 5% en 2024. La mayoría de los proyectos de IA todavía fracasan en producción — el 95% de los pilotos de GenAI no entrega valor medible (MIT NANDA, 2025), y Gartner estima que el 40% de los proyectos de IA agéntica serán cancelados antes de 2027 por costos, valor poco claro y controles de riesgo débiles. Y sin embargo, las organizaciones maduras en plataforma son consistentemente las que están teniendo éxito.

El patrón no es coincidencia. El DORA 2025 — encuestando a 39.000 profesionales — encontró 90% de adopción de IDP entre las organizaciones de alto rendimiento y una relación directa entre la madurez de plataforma y los beneficios de productividad con IA. El mecanismo es la amplificación: la IA no mejora la capacidad de entrega de forma independiente. Amplifica lo que ya existe. En sistemas maduros, el mismo asistente de IA produce +98% de rendimiento en PRs. En sistemas débiles, la herramienta idéntica produce +242,7% de incidentes por pull request y ciclos de revisión de código 441% más largos. El mismo input. Resultados opuestos. La plataforma es el diferenciador.

Como observó Chris Aniszczyk, CTO de la CNCF, en la KubeCon Europe 2026: “Los agentes amplían lo bueno o lo malo de tu ecosistema. La pregunta no es si adoptarás agentes. La pregunta es si tu fundación puede soportar su peso.”

La pirámide de cinco capas de la empresa AI-native

Toda empresa AI-native se sustenta en cinco capas dispuestas en estricto orden de dependencia. No se puede construir la capa N+1 más rápido que la capa N — o, con más precisión, solo se pueden construir en paralelo si se acepta la deuda que viene de omitir la brecha.

  • L1 — Platform Engineering: El sustrato autoservicio, gobernado por políticas y observable. Entregables: Golden Paths, Guardrails, Safety Nets y Flujos de Revisión Manual. Artefactos concretos: portal Backstage, GitOps vía Argo CD, Policy-as-Code (OPA Gatekeeper + Kyverno + Azure Policy), observabilidad (Prometheus, Grafana, OpenTelemetry), Workload Identity, atribución de costos, catálogo de servicios, documentación como código.
  • L2 — Capa de Contexto: Conocimiento empresarial codificado en formato consumible por máquinas. Catálogo Backstage, TechDocs, servidores MCP, almacenes vectoriales (pgvector, Azure AI Search), seguimiento de linaje (Purview, DataHub), pipelines de embedding, métricas de frescura. Depende de L1 porque la plataforma posee los primitivos de RBAC, observabilidad y ciclo de vida que hacen que el contexto sea confiable.
  • L3 — Capa Cognitiva: Modelos de fundación (GPT-4o, Claude, Llama, Mistral), modelos fine-tuned, servicios de embedding, pipelines de evaluación, todos mediados a través de un gateway de modelos que la plataforma provisiona y gobierna.
  • L4 — Capa de Intención: Objetivos, políticas y especificaciones codificados contra los cuales los agentes pueden planificar. Intención sin contexto es alucinación; contexto sin intención es descripción sin dirección. Spec-Driven Development, requisitos en notación EARS, principios de Constitutional AI, contratos de alcance de permisos de agentes.
  • L5 — Capa Agéntica: Agentes autónomos orientados a objetivos que combinan intención, contexto y cognición para actuar. Esta es la capa visible para la mayor parte de la inversión en IA en 2026 — y la capa con mayor probabilidad de fallar cuando las capas subyacentes están ausentes.

Una organización que salta a L5 sin L1–L4 en su lugar no produce agentes. Produce un desorden amplificado.

Los Cuatro Pilares de la CNCF como plano de control para IA

El framework de Platform Engineering de la CNCF define cuatro pilares diseñados para entregas conducidas por humanos que, en 2026, se reexpresan como el plano de control para entregas conducidas por IA.

PilarPara desarrolladores humanos (2022)Para agentes autónomos (2026)
Golden PathsPlantillas de servicio, scaffoldsSuperficie de ejecución sancionada
GuardrailsPrevención de mala configuraciónContención de escalada autónoma
Safety NetsRollback, entrega progresivaRollback a nivel de decisión, congelamiento por SLO
Manual ReviewRevisión de código en PRGates de aprobación en acciones irreversibles

Golden Paths son flujos de trabajo autoservicio y con criterio que llevan a un desarrollador (o agente) desde “quiero construir X” hasta un sistema funcional y en cumplimiento en minutos. Para los agentes, los Golden Paths se convierten en los scaffolds mediante los cuales se instancian los agentes. Si no es un Golden Path, el agente no lo ejecuta.

Guardrails son preventivos, no detectivos. Políticas aplicadas en la admisión: OPA Gatekeeper + Kyverno, Network Security Groups, Workload Identity reemplazando credenciales de larga duración, políticas de imagen y cadena de suministro con controladores de admisión que rechazan cargas de trabajo no firmadas. Para los agentes, los guardrails se convierten en las políticas que los agentes deben satisfacer en tiempo de ejecución: alcance de permisos, acceso a datos, filtrado de salida — el campo de contención del agente.

Safety Nets detectan y se recuperan de fallos que los guardrails no previnieron. La reconciliación GitOps devuelve el estado del clúster al estado declarado. Las pilas de observabilidad detectan anomalías. La entrega progresiva (canary, blue-green, feature flags) contiene el radio de impacto. Para los agentes, las safety nets se convierten en bucles de reconciliación que corrigen la desviación: recuperación de inyección de prompts, circuit breakers de costos, validación de salida, congelamiento orientado por SLO.

Manual Review crea checkpoints explícitos de humano en el bucle para decisiones que no deben automatizarse — y estos checkpoints se vuelven más importantes, no menos, a medida que la IA acelera todo. Para los agentes, la revisión manual se convierte en el flujo de aprobación para la expansión de capacidades: el equivalente en IA de un despliegue elevado en producción.

El plano de control no necesita ser inventado. Necesita ser reexpresado como el sistema operativo para la población de agentes.

Modos de fallo cuando la fundación es débil

Cuando la capa de plataforma es débil, cinco modos de fallo específicos aparecen con regularidad. La causa estructural es consistente: la IA opera más rápido de lo que los procesos ad hoc pueden gobernar.

Acumulación triple de deuda: La IA genera simultáneamente deuda técnica (código generado por IA sin disciplina de revisión), deuda cognitiva (conocimiento que existe solo en prompts y hilos de Slack, no codificado) y deuda de intención (objetivos implícitos, contradictorios o no documentados). Tres deudas se acumulan en paralelo; ninguna resuelve a las otras.

Plataformas sombra: Cuando la plataforma central no es utilizable, los equipos construyen la propia. El resultado: CI/CD a medida por equipo, módulos Terraform conflictivos, cinco forks distintos de servidores MCP, pilas de observabilidad duplicadas. El costo distribuido es invisible en cualquier línea presupuestaria individual, pero representa 2–3x el costo de una plataforma real en conjunto.

Putrefacción de contexto: Los catálogos de servicios, la documentación y el linaje se degradan silenciosamente. Sin herramientas de plataforma para medir la degradación (métricas de frescura, cobertura de propiedad) y el flujo para corregirla, los agentes de IA razonan sobre contexto obsoleto y producen respuestas plausibles pero incorrectas a escala.

Regresión de seguridad: El Informe Global de Amenazas 2026 de CrowdStrike documenta que las organizaciones que desplegaron asistentes de codificación con IA antes de madurar su postura de seguridad de plataforma experimentaron un aumento del 38% en vulnerabilidades explotables en los primeros 12 meses. La regresión desaparece en organizaciones donde la plataforma aplica controles de cadena de suministro y políticas en la admisión.

El problema del 100:1: Para 2028, la proporción agente-humano llega a 100:1. La supervisión manual del ciclo de vida, credenciales y auditoría de los agentes no escala. La única respuesta estructural es una plataforma que trate a los agentes como cargas de trabajo de primera clase y los gobierne a la velocidad de la plataforma, no a la velocidad humana.

El Doble Mandato de 2026 para los equipos de plataforma

Los equipos de plataforma en 2026 tienen dos responsabilidades simultáneas. El Mandato A es aumentar la plataforma con IA — usando agentes para triaje de alertas, borradores de correcciones de runbook, propuestas de cambios en Terraform, enrutamiento de incidentes y generación de invocaciones de Golden Paths en el IDE. El objetivo es aumentar la velocidad interna para que las mejoras de plataforma se entreguen más rápido. El Mandato B es habilitar cargas de trabajo de IA a escala — exponiendo inferencia, almacenamiento vectorial, runtime de agentes, evaluación y observabilidad como primitivos de plataforma de primera clase que los equipos de aplicación consumen a través de Golden Paths. El objetivo es aumentar la velocidad externa para que los productos que usan IA se entreguen más rápido.

Una plataforma que ejecuta solo el Mandato A produce un equipo de plataforma más rápido. Una plataforma que ejecuta solo el Mandato B se convierte en el cuello de botella. Las plataformas maduras ejecutan los dos.

Open Horizons: el acelerador CNCF OSS

Open Horizons es la forma ejecutable de todo lo descrito anteriormente. Es un único repositorio de template en GitHub que aprovisiona una Plataforma Agentic DevOps completa en Azure usando componentes CNCF OSS, con soporte conjunto de Microsoft. Los números:

  • 120+ archivos, 20.000+ líneas de código
  • 16 módulos Terraform que cubren todo el sustrato AKS + Backstage
  • 22 plantillas de Golden Path en tres horizontes
  • 17 agentes GitHub Copilot Chat conectados para el Doble Mandato
  • 13 configuraciones de servidor MCP
  • 30+ reglas de alerta, 3 dashboards Grafana preconstruidos, 16 habilidades operativas

La arquitectura sigue tres horizontes. H1 (Fundación, días 0–90): AKS, VNet zero-trust, Azure Key Vault, ACR, PostgreSQL, Redis, Defender for Cloud, OPA Gatekeeper + Kyverno — 6 plantillas. H2 (Mejora, meses 3–6): Argo CD, Backstage IDP, Prometheus + Grafana, Tekton Pipelines, malla de servicios Istio, cadena de suministro Sigstore + SLSA + syft, NGINX + cert-manager — 9 plantillas. H3 (Innovación, meses 6–12): Azure AI Foundry, aplicaciones RAG, sistemas multi-agente, pipelines de MLOps, extensiones GitHub Copilot — 7 plantillas.

Cada plantilla H3 hereda los primitivos H1 y H2. Un foundry-agent es estructuralmente un microservicio más un binding de modelo más un pipeline de evaluación — no una arquitectura separada. Una organización que adopta Open Horizons no escribe una plataforma desde cero. Personaliza un punto de partida con criterio. Esa es una diferencia de un orden de magnitud en costo, tiempo y riesgo.

Modelo de madurez y medición

El Modelo de Madurez de Platform Engineering de la CNCF proporciona cinco niveles en cinco dimensiones: Inversión, Adopción, Interfaces, Operaciones y Medición. El estado objetivo — AI-Native (Nivel 5) — es el único nivel que cierra el Doble Mandato. En ese nivel: la inversión tiene una estructura de presupuesto de doble mandato; la adopción incluye agentes a escala consumiendo los mismos Golden Paths que los desarrolladores humanos; las operaciones son conducidas por agentes con revisión humana; y la medición abarca las Cuatro Métricas Clave DORA, ROI de IA y salud de los agentes.

No se puede gestionar lo que no se mide. Las Cuatro Métricas Clave DORA (frecuencia de despliegue, tiempo de entrega de cambios, tasa de fallos en cambios, tiempo de restauración del servicio) actúan como el filtro a través del cual se observan los efectos de la IA. Los mejores ejecutores en DORA 2025 ven +20–30% de ganancias de productividad con IA. Los de bajo rendimiento obtienen resultados negativos netos.

La secuencia de 90 a 180 días

El roadmap es concreto y secuenciado. Días 0–90 (H1 Fundación): clúster AKS con Terraform, Key Vault, ACR, VNet, Workload Identity; Backstage con Golden Paths H1; Argo CD con políticas de sincronización por entorno; dashboard de plataforma Prometheus + Grafana; tres equipos incorporados; métricas DORA en vivo. Resultado esperado: tiempo hasta el primer PR inferior a un día. Meses 3–6 (H2 Mejora): capa completa de servicios de plataforma, seguridad de cadena de suministro, malla de servicios, todos los Cuatro Pilares CNCF conectados. Meses 6–12 (H3 Innovación): capacidades de IA a escala — aplicaciones RAG, sistemas multi-agente, MLOps, extensiones GitHub Copilot.

La fórmula: Platform Engineering + Open Horizons = Plataforma Agentic DevOps. La pregunta ya no es si construir la fundación. Es qué tan rápido. Para empresas dispuestas a comprometerse, la respuesta es 90 a 180 días.

IDC estima que el 73% de las organizaciones no tiene los prerrequisitos de plataforma para la IA agéntica y solo el 8% tiene cargas de trabajo de IA en producción. La brecha es de un orden de magnitud. McKinsey y Forrester documentan ROI 2,5x más rápido y time-to-production 4–6x más rápido en organizaciones maduras en plataforma. La evidencia no dice “la plataforma ayuda con la IA.” Dice que la plataforma determina si la IA tiene éxito o fracasa.

Empieza por H1. Comprométete con la plataforma antes que con los agentes.

← Knowledge Hub

Paula Silva | Software Global Black Belt

Start with the platform, not the agents. Comece pela plataforma, não pelos agentes. Comience por la plataforma, no por los agentes.

Building the future of software development with AI and Agentic DevOps.

Knowledge Hub · v3.4.0 · 2026-06-17
paulasilva · 2026-06-17 EN · PT-BR · ES