Paula Silva Software Global Black Belt
LinkedIn

Legacy Modernization FrameworkFramework de Modernização de Sistemas LegadosMarco de Modernización de Sistemas Legados

A portfolio-based playbook for modernizing COBOL and mainframe estates using agentic AI — covering Gartner's 5R strategies, Microsoft's four approaches, a five-layer reference architecture, and a seven-phase journey from assessment to factory-scale cutover.Um guia de portfolio para modernização de sistemas COBOL e mainframe com IA agêntica — cobrindo as estratégias 5R do Gartner, as quatro abordagens da Microsoft, uma arquitetura de referência em cinco camadas e uma jornada de sete fases do diagnóstico ao corte em escala industrial.Una guía de portafolio para modernizar sistemas COBOL y mainframe con IA agéntica — que abarca las estrategias 5R de Gartner, los cuatro enfoques de Microsoft, una arquitectura de referencia de cinco capas y un recorrido de siete fases desde la evaluación hasta el corte a escala de fábrica.

Why modernization is no longer optional in 2026

Brazil’s COBOL estate runs between 1.25 billion and 2.1 billion lines of code, concentrated in commercial banks, development banks, insurance carriers, government agencies, and retail. These systems are not failing — they are running core banking, clearing, tax collection, and social services at scale. What is changing is the environment around them.

Three forces have converged to make standing still the highest-risk choice. First, the workforce: Brazil loses 15% of its COBOL developers annually with no replacement pipeline in sight. Second, regulation: BACEN’s 2028 modernization mandate requires API-based open banking interfaces and enhanced cybersecurity controls that mainframe platforms cannot deliver natively. LGPD data governance requirements — consent, lineage, the right to erasure — were never designed into these architectures. SOX, ISAE 3402, and PCI-DSS raise the bar further. Third, the economics: reverse-engineering business rules has historically consumed 40–60% of modernization budgets, leaving most projects stalled in the “understanding” phase, never reaching translation.

The window to act is 24–36 months. Agentic AI is the forcing function that makes that window viable.

The framework: Gartner’s 5R and Microsoft’s four approaches

No single modernization strategy fits an entire estate. The portfolio approach classifies each application on two axes — business criticality and technical complexity — and lands it in the right pattern.

Gartner’s 5R framework defines the spectrum:

  • Retain (R01): No code change. Stable systems near end of life. Low effort, low value. Defend and extend.
  • Rehost (R02): Lift and shift to cloud, keeping code as-is. Quick infrastructure wins, cloud cost play.
  • Refactor (R03): Translate language — COBOL to Java, .NET, or Python — while keeping the existing architecture. Medium effort, medium-to-high value. The sweet spot for AI acceleration.
  • Rearchitect (R04): Redesign architectural boundaries first, then translate. Microservices, event-driven patterns, modern data. High effort, high value, strategic.
  • Replace (R05): Retire legacy entirely. Adopt SaaS or rebuild from scratch. Highest effort and value, or a strategic exit.

Gartner projects that 75% or more of enterprises will choose incremental over big-bang approaches by 2030. Microsoft maps four concrete approaches onto this spectrum:

Microsoft approachGartner RPrimary tooling
MigrateR02 RehostAzure Migrate, Azure VM, mainframe emulation
ModernizeR03 RefactorMainframe Modernization Agent, Azure AI Foundry, Claude on Foundry
RearchitectR04 RearchitectAzure Functions, AKS, Service Bus, Event Grid, Cosmos DB
ReplaceR05 ReplaceDynamics 365, Power Platform, ISV solutions, Microsoft Fabric

One critical warning from Gartner (G00822567): current GenAI tools excel at code translation but explicitly exclude architecture modernization from their scope. Simple translation without rethinking architecture produces “JOBOL” — COBOL logic implemented in Java, which represents insufficient modernization and perpetuates the same structural problems in a different language.

How agentic AI flips the cost equation

In traditional modernization, the understanding phase alone consumed half the budget. Agentic AI inverts this distribution:

  • Traditional: Understanding 50% → Translation 20% → Testing 15% → Cutover 15%. Projects stall in understanding and never ship.
  • AI-driven: Discovery 10% → Translation 20% → Behavioral equivalence testing 35% → Coexistence and governance 35%. Budget shifts to validation. Projects ship.

Four specific capabilities drive this shift. Automated discovery: Claude Code maps dependencies across thousands of files, traces execution paths, and surfaces couplings even experienced developers miss — using a context window of up to 1 million tokens, enough to hold an entire COBOL application with copybooks, JCL, and data definitions simultaneously. Risk and opportunity mapping: AI scores each component on complexity, coupling, test coverage, and business criticality, replacing subjective expert judgment with data-driven assessment. Strategic planning with oversight: AI generates target architectures and migration sequences; human architects review and approve. Incremental implementation: AI translates one module at a time, with validation at every step — not a black-box conversion.

The operating model target is 70–80% AI-executed, 20–30% human oversight. Six decisions remain non-negotiable for humans: final approval of target architecture, validation of business rule preservation, performance tuning for specific workload patterns, production cutover sign-off, regulatory compliance authorization, and escalation of edge cases.

A cost risk warning applies here (Gartner G00827372): agent costs on pay-per-use can scale rapidly with unknown benefits. Per-module cost ceilings and iterative validation gates are mandatory, not optional.

The architecture: five layers, six agents, eight connectors

The reference architecture for agentic modernization has five layers that build on each other:

  1. Developer interface — Where humans drive agents: GitHub Copilot, Claude Code CLI, AGENTS.md, CLAUDE.md
  2. Multi-model orchestration — The intelligence of the pipeline: Orchestrator (Claude Opus), Workers (Claude Sonnet), Scanners (Claude Haiku), Semantic Kernel
  3. MCP tools — Enterprise connectors acting as “USB for AI agents”: GitHub, Azure DevOps, Backstage, Database, Observability, Key Vault, Jira, CMDB
  4. Platform — Where governance lives: Azure AI Foundry, Entra ID, Key Vault, Azure Monitor, Defender
  5. Perimeter — External interfaces: customer mainframe, target Azure services, external APIs

The three Claude models serve distinct roles: Claude Opus acts as the orchestrator and deep analysis engine, processing architectural recommendations using the full 1M-token context. Claude Sonnet handles worker tasks — code translation, test generation, documentation, PR creation. Claude Haiku runs high-volume scanning — syntax validation, pattern matching, triage classification. The routing rule is simple: Haiku scans, Sonnet translates, Opus analyzes.

Six specialized agents implement Gartner’s agent anatomy (perceive, decide, act, plan): Discovery (Haiku → Opus), Analysis (Opus), Translation (Sonnet), Test generation (Sonnet), Review (Sonnet), and Migration orchestration (Opus). The test generation agent targets 85%+ coverage, with 100% on critical business rule paths.

Three orchestration patterns cover the task shapes that arise: Sequential for linear stage-by-stage handoffs; Handoff for agent-to-agent escalation when a worker encounters a decision it cannot resolve; Group chat for collaborative architectural reasoning among multiple agents, consolidated by the orchestrator. Microsoft Semantic Kernel implements all three natively.

The seven-phase journey

The modernization journey runs through seven phases with a decision gate — requiring human approval before the next budget commitment — between each one. Every phase produces a rollback-ready artifact.

Phase 1 — Assess (Weeks 1–2): The Discovery agent scans the entire codebase: programs, copybooks, JCL, data structures. It builds a dependency graph, traces CALL relationships, maps JCL job flows, and catalogs business rules. Output is a JSON inventory, a Markdown report, and Mermaid diagrams. Decision gate: portfolio classified into 5R buckets.

Phase 2 — Carve (Weeks 2–4): The Analysis agent slices the monolith using a tiered dependency model. Tier 1 leaf modules (low coupling) are carved first. Tier 2 intermediate modules follow. Tier 3 core modules (high coupling) come last. SMF runtime behavior analysis informs the slicing order. Decision gate: approved modernization sequence.

Phase 3 — Translate (Weeks 3–8): Sonnet 4.6 translates COBOL to Java, .NET, or Python module by module, never as a big bang. The goal is preserving business semantics, not syntactic structure — specifically avoiding JOBOL. Each module produces a PR with mapping documentation. Decision gate: human review of every PR.

Phase 4 — Perform (Ongoing): SMF data establishes the performance baseline — CPU, I/O, response times. Load tests run with production-like volume. Hot paths are profiled and optimized. No regression is accepted beyond defined SLOs. Decision gate: performance sign-off by the SRE team.

Phase 5 — Coexist (12–24 months): The strangler fig pattern. A router splits traffic by percentage rollout, customer ID, or region using CDC and feature flags. The mainframe remains the source of truth — read-write authority — until the cutover gate is signed by an accountable executive. The modern Azure services run idempotently alongside it. Traffic shifts gradually: 10% → 50% → 100% to the modern system.

Phase 6 — Test (Continuous): Shadow traffic duplicates production requests to the modern service in read-only mode, comparing responses before they reach users. Behavioral equivalence tests — generated during translation from the original COBOL behavior, not from the translated code — validate identical outputs across thousands of input fixtures. Mutation testing injects defects to validate test suite quality. Edge case mining reads decades of audit logs to surface rare scenarios.

Phase 7 — Cutover and factory model: Five conditions must hold before flipping the switch: shadow traffic divergence below SLO threshold, performance parity confirmed, rollback procedure tested, incident runbook in place, compliance sign-off from the accountable executive. After the first module ships, the next 100 become factory work: reusable carving rules, standardized PR templates, pre-built CI/CD pipelines, and predictable cost — 50K–500K LOC per quarter at steady state, with first production in 90–180 days versus an industry median of 9–18 months.

Common pitfalls and how to avoid them

Six failure modes appear repeatedly in the field:

  • JOBOL: Run a rearchitect pass before translation. AI proposes target boundaries; humans approve.
  • Big-bang cutover: Use the strangler fig with CDC and a 12–24 month coexistence period.
  • Test rot: Generate tests from original COBOL behavior, not from translated code. Mutation-test the suite.
  • Agent anarchy: Single orchestrator (Opus), every agent action logged, approval gates at decision points.
  • Cost runaway: Per-module cost ceiling. Wave 1 → Wave 2 → Wave 3 with cost gates between.
  • Vendor lock-in: Standard, idiomatic target language. No proprietary SDK injection. Multi-model routing.

The two-week starting point

Five actions, in sequence: pick one COBOL module under 5K LOC with low business criticality; stand up GitHub Copilot and Claude on Azure AI Foundry; run the Discovery agent on that module and compare its output against your team’s mental model; generate translation and behavioral equivalence tests for one leaf module; establish governance baseline — approval gates, cost ceilings, audit logging.

At the end of two weeks, you have a translated module with passing behavioral tests, a documented governance plan, and a credible case for Wave 2. That is what goes to the steering committee.

Por que a modernização deixou de ser opcional em 2026

O parque COBOL brasileiro contém entre 1,25 bilhão e 2,1 bilhões de linhas de código, concentrados em bancos comerciais, bancos de desenvolvimento, seguradoras, órgãos governamentais e varejo. Esses sistemas não estão falhando — eles operam core bancário, compensação, arrecadação tributária e serviços sociais em escala. O que está mudando é o ambiente ao redor deles.

Três forças convergiram para tornar a inércia a escolha de maior risco. Primeiro, a força de trabalho: o Brasil perde 15% dos seus desenvolvedores COBOL anualmente, sem pipeline de reposição. Segundo, a regulação: o mandato de modernização do BACEN para 2028 exige interfaces de open banking baseadas em API e controles de cibersegurança aprimorados que plataformas mainframe não entregam nativamente. Os requisitos de governança de dados da LGPD — consentimento, linhagem, direito ao apagamento — nunca foram projetados nessas arquiteturas. SOX, ISAE 3402 e PCI-DSS elevam ainda mais a exigência. Terceiro, a economia: a engenharia reversa das regras de negócio tem consumido historicamente 40–60% dos orçamentos de modernização, deixando a maioria dos projetos travados na fase de “entendimento”, sem jamais chegar à tradução.

A janela de ação é de 24–36 meses. A IA agêntica é o fator que torna essa janela viável.

O framework: os 5R do Gartner e as quatro abordagens da Microsoft

Nenhuma estratégia de modernização serve a todo um portfólio. A abordagem de portfolio classifica cada aplicação em dois eixos — criticidade de negócio e complexidade técnica — e posiciona cada uma no padrão correto.

O framework 5R do Gartner define o espectro:

  • Retain (R01): Sem alteração de código. Sistemas estáveis próximos ao fim de vida. Baixo esforço, baixo valor.
  • Rehost (R02): Lift and shift para a nuvem, mantendo o código como está. Ganhos de infraestrutura, redução de custo.
  • Refactor (R03): Traduzir a linguagem — COBOL para Java, .NET ou Python — mantendo a arquitetura existente. Esforço médio, valor médio a alto. O ponto ideal para aceleração com IA.
  • Rearchitect (R04): Redesenhar os limites arquiteturais primeiro, depois traduzir. Microsserviços, padrões orientados a eventos, dados modernos. Alto esforço, alto valor, estratégico.
  • Replace (R05): Aposentar o legado inteiramente. Adotar SaaS ou reconstruir do zero. Maior esforço e valor, ou saída estratégica.

O Gartner projeta que 75% ou mais das empresas escolherão abordagens incrementais em vez de big-bang até 2030. A Microsoft mapeia quatro abordagens concretas sobre esse espectro:

Abordagem MicrosoftGartner RFerramental principal
MigrateR02 RehostAzure Migrate, Azure VM, emulação de mainframe
ModernizeR03 RefactorMainframe Modernization Agent, Azure AI Foundry, Claude no Foundry
RearchitectR04 RearchitectAzure Functions, AKS, Service Bus, Event Grid, Cosmos DB
ReplaceR05 ReplaceDynamics 365, Power Platform, soluções ISV, Microsoft Fabric

Um alerta crítico do Gartner (G00822567): as ferramentas atuais de GenAI são excelentes em tradução de código, mas excluem explicitamente a modernização arquitetural do seu escopo. Tradução simples sem repensar a arquitetura produz “JOBOL” — lógica COBOL implementada em Java — o que representa modernização insuficiente e perpetua os mesmos problemas estruturais em outra linguagem.

Como a IA agêntica inverte a equação de custos

Na modernização tradicional, apenas a fase de entendimento consumia metade do orçamento. A IA agêntica inverte essa distribuição:

  • Tradicional: Entendimento 50% → Tradução 20% → Testes 15% → Corte 15%. Projetos travam no entendimento e nunca chegam à produção.
  • Orientado por IA: Descoberta 10% → Tradução 20% → Testes de equivalência comportamental 35% → Coexistência e governança 35%. O orçamento migra para validação. Os projetos chegam à produção.

Quatro capacidades específicas impulsionam essa mudança. Descoberta automatizada: o Claude Code mapeia dependências em milhares de arquivos, rastreia caminhos de execução e expõe acoplamentos que desenvolvedores experientes podem não perceber — usando uma janela de contexto de até 1 milhão de tokens, suficiente para conter uma aplicação COBOL completa com copybooks, JCL e definições de dados simultaneamente. Mapeamento de riscos e oportunidades: a IA pontua cada componente por complexidade, acoplamento, cobertura de testes e criticidade de negócio, substituindo julgamento subjetivo por avaliação baseada em dados. Planejamento estratégico com supervisão: a IA gera arquiteturas-alvo e sequências de migração; arquitetos humanos revisam e aprovam. Implementação incremental: a IA traduz um módulo por vez, com validação a cada etapa — não uma conversão em caixa-preta.

A meta do modelo operacional é 70–80% executado por IA, 20–30% de supervisão humana. Seis decisões permanecem inegociáveis para humanos: aprovação final da arquitetura-alvo, validação da preservação das regras de negócio, ajuste de performance para padrões de carga específicos, autorização do corte em produção, sign-off regulatório e escalação de casos de borda.

Um aviso sobre custo se aplica aqui (Gartner G00827372): custos de agentes em pay-per-use podem escalar rapidamente com benefícios desconhecidos. Tetos de custo por módulo e gates de validação iterativa são obrigatórios.

A arquitetura: cinco camadas, seis agentes, oito conectores

A arquitetura de referência para modernização agêntica tem cinco camadas que se constroem uma sobre a outra:

  1. Interface do desenvolvedor — Onde humanos dirigem agentes: GitHub Copilot, Claude Code CLI, AGENTS.md, CLAUDE.md
  2. Orquestração multi-modelo — A inteligência do pipeline: Orquestrador (Claude Opus), Workers (Claude Sonnet), Scanners (Claude Haiku), Semantic Kernel
  3. Ferramentas MCP — Conectores empresariais como “USB para agentes de IA”: GitHub, Azure DevOps, Backstage, Database, Observabilidade, Key Vault, Jira, CMDB
  4. Plataforma — Onde a governança reside: Azure AI Foundry, Entra ID, Key Vault, Azure Monitor, Defender
  5. Perímetro — Interfaces externas: mainframe do cliente, serviços Azure-alvo, APIs externas

Os três modelos Claude têm papéis distintos: Claude Opus atua como orquestrador e motor de análise profunda, processando recomendações arquiteturais com o contexto completo de 1M de tokens. Claude Sonnet executa tarefas de worker — tradução de código, geração de testes, documentação, criação de PRs. Claude Haiku conduz varredura de alto volume — validação de sintaxe, correspondência de padrões, classificação de triagem. A regra de roteamento é simples: Haiku varre, Sonnet traduz, Opus analisa.

Seis agentes especializados implementam a anatomia de agentes do Gartner (perceber, decidir, agir, planejar): Discovery (Haiku → Opus), Analysis (Opus), Translation (Sonnet), Test generation (Sonnet), Review (Sonnet) e Migration orchestration (Opus). O agente de geração de testes tem como alvo 85%+ de cobertura, com 100% nos caminhos críticos de regras de negócio.

Três padrões de orquestração cobrem as formas de tarefa que surgem: Sequencial para handoffs lineares estágio a estágio; Handoff para escalação agente a agente quando um worker encontra uma decisão que não consegue resolver; Group chat para raciocínio arquitetural colaborativo entre múltiplos agentes, consolidado pelo orquestrador. O Microsoft Semantic Kernel implementa os três nativamente.

A jornada de sete fases

A jornada de modernização percorre sete fases com um gate de decisão — exigindo aprovação humana antes do próximo comprometimento orçamentário — entre cada uma. Cada fase produz um artefato com rollback disponível.

Fase 1 — Assess (Semanas 1–2): O agente de Discovery varre todo o codebase: programas, copybooks, JCL, estruturas de dados. Constrói um grafo de dependências, rastreia relacionamentos CALL, mapeia fluxos de jobs JCL e cataloga regras de negócio. A saída é um inventário JSON, um relatório Markdown e diagramas Mermaid. Gate de decisão: portfólio classificado nos buckets 5R.

Fase 2 — Carve (Semanas 2–4): O agente de Analysis fatia o monólito usando um modelo de dificuldade de dependência por camadas. Módulos folha Tier 1 (baixo acoplamento) são desmembrados primeiro. Módulos intermediários Tier 2 seguem. Módulos core Tier 3 (alto acoplamento) ficam por último. A análise de comportamento de runtime SMF informa a ordem de fatiamento. Gate de decisão: sequência de modernização aprovada.

Fase 3 — Translate (Semanas 3–8): O Sonnet 4.6 traduz COBOL para Java, .NET ou Python módulo a módulo, nunca como big bang. O objetivo é preservar a semântica de negócio, não a estrutura sintática — evitando especificamente JOBOL. Cada módulo produz um PR com documentação de mapeamento. Gate de decisão: revisão humana de cada PR.

Fase 4 — Perform (Contínuo): Os dados SMF estabelecem a linha de base de performance — CPU, I/O, tempos de resposta. Testes de carga rodam com volume similar à produção. Caminhos críticos são perfilados e otimizados. Nenhuma regressão além dos SLOs definidos é aceita. Gate de decisão: sign-off de performance pela equipe SRE.

Fase 5 — Coexist (12–24 meses): O padrão strangler fig. Um roteador divide o tráfego por percentual de rollout, ID de cliente ou região usando CDC e feature flags. O mainframe permanece como fonte da verdade — autoridade de leitura e escrita — até que o gate de corte seja assinado por um executivo responsável. Os serviços modernos no Azure rodam de forma idempotente ao lado dele. O tráfego migra gradualmente: 10% → 50% → 100% para o sistema moderno.

Fase 6 — Test (Contínuo): O shadow traffic duplica requisições de produção para o serviço moderno em modo somente leitura, comparando respostas antes de chegarem aos usuários. Testes de equivalência comportamental — gerados durante a tradução a partir do comportamento COBOL original, não do código traduzido — validam saídas idênticas em milhares de fixtures de entrada. O mutation testing injeta defeitos para validar a qualidade da suíte de testes. A mineração de casos de borda lê décadas de logs de auditoria para emergir cenários raros.

Fase 7 — Cutover e modelo de fábrica: Cinco condições devem ser satisfeitas antes de virar o switch: divergência de shadow traffic abaixo do limiar de SLO, paridade de performance confirmada, procedimento de rollback testado, runbook de resposta a incidentes em vigor, sign-off de compliance do executivo responsável. Após o primeiro módulo entrar em produção, os próximos 100 tornam-se trabalho de fábrica: regras de desmembramento reutilizáveis, templates de PR padronizados, pipelines CI/CD pré-construídos e custo previsível — 50K–500K LOC por trimestre em regime estável, com primeiro resultado em produção em 90–180 dias versus a mediana do setor de 9–18 meses.

Armadilhas frequentes e como evitá-las

Seis modos de falha aparecem repetidamente na prática:

  • JOBOL: Rodar uma passagem de rearquitetura antes da tradução. A IA propõe os limites-alvo; humanos aprovam.
  • Corte big-bang: Usar strangler fig com CDC e período de coexistência de 12–24 meses.
  • Test rot: Gerar testes a partir do comportamento COBOL original, não do código traduzido. Fazer mutation testing na suíte.
  • Anarquia de agentes: Orquestrador único (Opus), toda ação de agente registrada, gates de aprovação nos pontos de decisão.
  • Estouro de custo: Teto de custo por módulo. Wave 1 → Wave 2 → Wave 3 com gates de custo entre elas.
  • Vendor lock-in: Linguagem-alvo padrão e idiomática. Sem injeção de SDK proprietário. Roteamento multi-modelo.

O ponto de partida em duas semanas

Cinco ações, em sequência: escolher um módulo COBOL abaixo de 5K LOC com baixa criticidade de negócio; provisionar GitHub Copilot e Claude no Azure AI Foundry; executar o agente de Discovery nesse módulo e comparar a saída com o modelo mental da equipe; gerar tradução e testes de equivalência comportamental para um módulo folha; estabelecer a linha de base de governança — gates de aprovação, tetos de custo, logging de auditoria.

Ao final de duas semanas, você tem um módulo traduzido com testes comportamentais passando, um plano de governança documentado e um caso credível para a Wave 2. Isso é o que vai para o comitê diretivo.

Por qué la modernización dejó de ser opcional en 2026

El patrimonio COBOL en Brasil contiene entre 1,25 mil millones y 2,1 mil millones de líneas de código, concentrado en bancos comerciales, bancos de desarrollo, aseguradoras, organismos gubernamentales y comercio minorista. Estos sistemas no están fallando — operan banca central, liquidación, recaudación tributaria y servicios sociales a escala. Lo que está cambiando es el entorno que los rodea.

Tres fuerzas han convergido para convertir la inacción en la opción de mayor riesgo. Primero, la fuerza laboral: Brasil pierde 15% de sus desarrolladores COBOL anualmente, sin un pipeline de reposición a la vista. Segundo, la regulación: el mandato de modernización del Banco Central de Brasil para 2028 exige interfaces de open banking basadas en API y controles de ciberseguridad avanzados que las plataformas mainframe no pueden entregar de forma nativa. Los requisitos de gobernanza de datos de la LGPD — consentimiento, linaje, derecho al olvido — nunca fueron diseñados en estas arquitecturas. SOX, ISAE 3402 y PCI-DSS elevan aún más el listón. Tercero, la economía: la ingeniería inversa de reglas de negocio ha consumido históricamente 40–60% de los presupuestos de modernización, dejando la mayoría de los proyectos atascados en la fase de “entendimiento”, sin llegar jamás a la traducción.

La ventana de acción es de 24–36 meses. La IA agéntica es el factor que hace viable esa ventana.

El marco: los 5R de Gartner y los cuatro enfoques de Microsoft

Ninguna estrategia de modernización sirve para todo un portafolio. El enfoque de portafolio clasifica cada aplicación en dos ejes — criticidad de negocio y complejidad técnica — y la ubica en el patrón correcto.

El marco 5R de Gartner define el espectro:

  • Retain (R01): Sin cambio de código. Sistemas estables cerca del fin de vida. Esfuerzo bajo, valor bajo.
  • Rehost (R02): Lift and shift a la nube, manteniendo el código tal cual. Ganancias rápidas de infraestructura, reducción de costos.
  • Refactor (R03): Traducir el lenguaje — COBOL a Java, .NET o Python — manteniendo la arquitectura existente. Esfuerzo medio, valor medio-alto. El punto óptimo para la aceleración con IA.
  • Rearchitect (R04): Rediseñar los límites arquitecturales primero, luego traducir. Microservicios, patrones orientados a eventos, datos modernos. Esfuerzo alto, valor alto, estratégico.
  • Replace (R05): Retirar el legado por completo. Adoptar SaaS o reconstruir desde cero. Mayor esfuerzo y valor, o salida estratégica.

Gartner proyecta que el 75% o más de las empresas elegirán enfoques incrementales sobre big-bang para 2030. Microsoft mapea cuatro enfoques concretos sobre este espectro:

Enfoque MicrosoftGartner RHerramientas principales
MigrateR02 RehostAzure Migrate, Azure VM, emulación de mainframe
ModernizeR03 RefactorMainframe Modernization Agent, Azure AI Foundry, Claude en Foundry
RearchitectR04 RearchitectAzure Functions, AKS, Service Bus, Event Grid, Cosmos DB
ReplaceR05 ReplaceDynamics 365, Power Platform, soluciones ISV, Microsoft Fabric

Una advertencia crítica de Gartner (G00822567): las herramientas actuales de GenAI son excelentes en traducción de código, pero excluyen explícitamente la modernización arquitectural de su alcance. La traducción simple sin repensar la arquitectura produce “JOBOL” — lógica COBOL implementada en Java — lo que representa una modernización insuficiente y perpetúa los mismos problemas estructurales en otro lenguaje.

Cómo la IA agéntica invierte la ecuación de costos

En la modernización tradicional, solo la fase de entendimiento consumía la mitad del presupuesto. La IA agéntica invierte esa distribución:

  • Tradicional: Entendimiento 50% → Traducción 20% → Pruebas 15% → Corte 15%. Los proyectos se estancan en el entendimiento y nunca llegan a producción.
  • Orientado por IA: Descubrimiento 10% → Traducción 20% → Pruebas de equivalencia conductual 35% → Coexistencia y gobernanza 35%. El presupuesto se desplaza hacia la validación. Los proyectos llegan a producción.

Cuatro capacidades específicas impulsan este cambio. Descubrimiento automatizado: Claude Code mapea dependencias en miles de archivos, rastrea caminos de ejecución y expone acoplamientos que incluso los desarrolladores experimentados pueden pasar por alto — usando una ventana de contexto de hasta 1 millón de tokens, suficiente para contener una aplicación COBOL completa con copybooks, JCL y definiciones de datos simultáneamente. Mapeo de riesgos y oportunidades: la IA puntúa cada componente por complejidad, acoplamiento, cobertura de pruebas y criticidad de negocio, reemplazando el juicio experto subjetivo con evaluación basada en datos. Planificación estratégica con supervisión: la IA genera arquitecturas objetivo y secuencias de migración; los arquitectos humanos revisan y aprueban. Implementación incremental: la IA traduce un módulo a la vez, con validación en cada paso — no una conversión de caja negra.

El objetivo del modelo operativo es 70–80% ejecutado por IA, 20–30% de supervisión humana. Seis decisiones permanecen no negociables para los humanos: aprobación final de la arquitectura objetivo, validación de la preservación de reglas de negocio, ajuste de rendimiento para patrones de carga específicos, autorización del corte en producción, firma regulatoria de cumplimiento y escalado de casos extremos.

Una advertencia de costos aplica aquí (Gartner G00827372): los costos de agentes en pago por uso pueden escalar rápidamente con beneficios desconocidos. Los techos de costo por módulo y los gates de validación iterativa son obligatorios, no opcionales.

La arquitectura: cinco capas, seis agentes, ocho conectores

La arquitectura de referencia para modernización agéntica tiene cinco capas que se construyen una sobre la otra:

  1. Interfaz del desarrollador — Donde los humanos dirigen a los agentes: GitHub Copilot, Claude Code CLI, AGENTS.md, CLAUDE.md
  2. Orquestación multi-modelo — La inteligencia del pipeline: Orquestador (Claude Opus), Workers (Claude Sonnet), Scanners (Claude Haiku), Semantic Kernel
  3. Herramientas MCP — Conectores empresariales como “USB para agentes de IA”: GitHub, Azure DevOps, Backstage, Base de datos, Observabilidad, Key Vault, Jira, CMDB
  4. Plataforma — Donde reside la gobernanza: Azure AI Foundry, Entra ID, Key Vault, Azure Monitor, Defender
  5. Perímetro — Interfaces externas: mainframe del cliente, servicios Azure objetivo, APIs externas

Los tres modelos Claude desempeñan roles distintos: Claude Opus actúa como orquestador y motor de análisis profundo, procesando recomendaciones arquitecturales con el contexto completo de 1M de tokens. Claude Sonnet ejecuta tareas de worker — traducción de código, generación de pruebas, documentación, creación de PRs. Claude Haiku realiza escaneos de alto volumen — validación de sintaxis, coincidencia de patrones, clasificación de triaje. La regla de enrutamiento es simple: Haiku escanea, Sonnet traduce, Opus analiza.

Seis agentes especializados implementan la anatomía de agentes de Gartner (percibir, decidir, actuar, planificar): Discovery (Haiku → Opus), Analysis (Opus), Translation (Sonnet), Test generation (Sonnet), Review (Sonnet) y Migration orchestration (Opus). El agente de generación de pruebas apunta a una cobertura de 85%+, con 100% en los caminos críticos de reglas de negocio.

Tres patrones de orquestación cubren las formas de tarea que surgen: Secuencial para handoffs lineales etapa a etapa; Handoff para escalado agente a agente cuando un worker encuentra una decisión que no puede resolver; Group chat para razonamiento arquitectural colaborativo entre múltiples agentes, consolidado por el orquestador. Microsoft Semantic Kernel implementa los tres de forma nativa.

El recorrido de siete fases

El recorrido de modernización atraviesa siete fases con un gate de decisión — que requiere aprobación humana antes del siguiente compromiso presupuestario — entre cada una. Cada fase produce un artefacto con rollback disponible.

Fase 1 — Assess (Semanas 1–2): El agente de Discovery escanea todo el codebase: programas, copybooks, JCL, estructuras de datos. Construye un grafo de dependencias, rastrea relaciones CALL, mapea flujos de jobs JCL y cataloga reglas de negocio. La salida es un inventario JSON, un informe Markdown y diagramas Mermaid. Gate de decisión: portafolio clasificado en cubos 5R.

Fase 2 — Carve (Semanas 2–4): El agente de Analysis divide el monolito usando un modelo de dificultad de dependencia por niveles. Los módulos hoja Tier 1 (bajo acoplamiento) se desglosan primero. Los módulos intermedios Tier 2 siguen. Los módulos core Tier 3 (alto acoplamiento) van al final. El análisis de comportamiento de runtime SMF informa el orden de segmentación. Gate de decisión: secuencia de modernización aprobada.

Fase 3 — Translate (Semanas 3–8): Sonnet 4.6 traduce COBOL a Java, .NET o Python módulo a módulo, nunca como big bang. El objetivo es preservar la semántica de negocio, no la estructura sintáctica — evitando específicamente JOBOL. Cada módulo produce un PR con documentación de mapeo. Gate de decisión: revisión humana de cada PR.

Fase 4 — Perform (Continuo): Los datos SMF establecen la línea base de rendimiento — CPU, I/O, tiempos de respuesta. Las pruebas de carga se ejecutan con volumen similar a producción. Los caminos críticos se perfilan y optimizan. No se acepta ninguna regresión más allá de los SLOs definidos. Gate de decisión: firma de rendimiento por el equipo SRE.

Fase 5 — Coexist (12–24 meses): El patrón strangler fig. Un enrutador divide el tráfico por porcentaje de rollout, ID de cliente o región usando CDC y feature flags. El mainframe permanece como fuente de verdad — autoridad de lectura y escritura — hasta que el gate de corte sea firmado por un ejecutivo responsable. Los servicios modernos en Azure corren de forma idempotente junto a él. El tráfico migra gradualmente: 10% → 50% → 100% hacia el sistema moderno.

Fase 6 — Test (Continuo): El shadow traffic duplica las solicitudes de producción al servicio moderno en modo de solo lectura, comparando respuestas antes de que lleguen a los usuarios. Las pruebas de equivalencia conductual — generadas durante la traducción a partir del comportamiento COBOL original, no del código traducido — validan salidas idénticas en miles de fixtures de entrada. Las pruebas de mutación inyectan defectos para validar la calidad de la suite de pruebas. La minería de casos extremos lee décadas de registros de auditoría para identificar escenarios infrecuentes.

Fase 7 — Cutover y modelo de fábrica: Cinco condiciones deben cumplirse antes de realizar el corte: divergencia de shadow traffic por debajo del umbral de SLO, paridad de rendimiento confirmada, procedimiento de rollback probado, runbook de respuesta a incidentes en lugar, firma de cumplimiento del ejecutivo responsable. Después de que el primer módulo entre en producción, los siguientes 100 se convierten en trabajo de fábrica: reglas de segmentación reutilizables, plantillas de PR estandarizadas, pipelines CI/CD preconstruidos y costo predecible — 50K–500K LOC por trimestre en régimen estable, con primer resultado en producción en 90–180 días frente a la mediana del sector de 9–18 meses.

Errores frecuentes y cómo evitarlos

Seis modos de fallo aparecen repetidamente en la práctica:

  • JOBOL: Ejecutar una pasada de rediseño arquitectural antes de la traducción. La IA propone los límites objetivo; los humanos aprueban.
  • Corte big-bang: Usar strangler fig con CDC y un período de coexistencia de 12–24 meses.
  • Test rot: Generar pruebas a partir del comportamiento COBOL original, no del código traducido. Hacer mutation testing en la suite.
  • Anarquía de agentes: Orquestador único (Opus), toda acción de agente registrada, gates de aprobación en los puntos de decisión.
  • Desbordamiento de costos: Techo de costo por módulo. Wave 1 → Wave 2 → Wave 3 con gates de costo entre ellas.
  • Vendor lock-in: Lenguaje objetivo estándar e idiomático. Sin inyección de SDK propietario. Enrutamiento multi-modelo.

El punto de partida en dos semanas

Cinco acciones, en secuencia: elegir un módulo COBOL de menos de 5K LOC con baja criticidad de negocio; aprovisionar GitHub Copilot y Claude en Azure AI Foundry; ejecutar el agente de Discovery en ese módulo y comparar la salida con el modelo mental del equipo; generar traducción y pruebas de equivalencia conductual para un módulo hoja; establecer la línea base de gobernanza — gates de aprobación, techos de costo, registro de auditoría.

Al cabo de dos semanas, se cuenta con un módulo traducido con pruebas conductuales que pasan, un plan de gobernanza documentado y un argumento creíble para la Wave 2. Eso es lo que se presenta al comité directivo.

← Knowledge Hub

Paula Silva | Software Global Black Belt

Start with the platform, not the agents. Comece pela plataforma, não pelos agentes. Comience por la plataforma, no por los agentes.

Building the future of software development with AI and Agentic DevOps.

Knowledge Hub · v3.4.0 · 2026-06-17
paulasilva · 2026-06-17 EN · PT-BR · ES