Microsoft AI Agents PortfolioPortfólio Microsoft AI AgentsPortafolio Microsoft AI Agents
The full portfolio — Copilot Studio, GitHub Copilot Agents, Azure AI Foundry. Three platforms, one decision framework for enterprise AI agents.O portfólio completo — Copilot Studio, GitHub Copilot Agents, Azure AI Foundry. Três plataformas, um framework de decisão para agentes de IA corporativos.El portafolio completo — Copilot Studio, GitHub Copilot Agents, Azure AI Foundry. Tres plataformas, un framework de decisión para agentes de IA empresariales.
Three platforms, one decision framework
Microsoft’s AI agent portfolio is built on three distinct platforms, each serving a different audience and a different control surface. Understanding which platform to use — and when — is the foundational decision every enterprise team must make before writing a single line of agent code.
The three platforms are Copilot Studio, GitHub Copilot Agents, and Azure AI Foundry. They are complementary, not competitive. Most enterprises end up running all three; the question is which use case lands where.
What an AI agent actually is
Before comparing platforms, it helps to be precise about what separates an agent from a chatbot. A chatbot is stateless and reactive: it receives a question and returns a single answer, with no memory across turns and no ability to pursue a goal. An agent is goal-driven, stateful, and tool-using. It receives a goal, plans a sequence of steps, calls tools, observes results, and iterates until the goal is met — or escalates to a human when it cannot proceed.
Every agent is built from five components:
- Brain — an LLM (GPT-4o, Claude, Llama, Phi) that reasons over input and plans the next step. Picked per task.
- Memory — conversation history, a scratchpad, a vector store for RAG, and episodic memory across runs. Bounded by policy.
- Tools — search, database queries, REST calls, code execution, workflow triggers. Catalogued and scoped.
- Policy — RBAC, content filters, rate limits, Human-in-the-Loop checkpoints, and audit. Non-negotiable.
- Orchestration — the plan-act-observe loop, multi-agent coordination, retries, and timeouts. The platform’s job.
The three platforms
Copilot Studio targets business users and citizen developers. It offers drag-and-drop topic authoring, native connectors to Microsoft 365, Dataverse, and Power Platform, and governance through the Power Platform admin center. Time-to-pilot is measured in hours to days. It is the right tool for HR assistants, IT helpdesk bots, and customer service experiences where the business team owns the agent.
GitHub Copilot Agents targets software engineers. Agent Mode, custom agents defined in .github/agents/, MCP tool integrations, and IDE-native experiences make it the natural home for code generation, refactoring, pull-request automation, and test generation. Governance follows GitHub’s existing policy model. Pilots can go live within days.
Azure AI Foundry targets ML engineers and platform teams. It provides the full SDK, the model catalog, multi-agent orchestration, fine-tuning pipelines, evaluation harnesses, and observability — everything required to build production-grade vertical agents at scale. Governance uses Azure RBAC and Azure AI Content Safety. Time-to-pilot is weeks, but the ceiling is unlimited.
The decision matrix
| Criteria | Copilot Studio | GitHub Copilot Agents | Azure AI Foundry |
|---|---|---|---|
| Audience | Business / citizen dev | Software engineers | ML / platform teams |
| Skill level | Low-code, no-code | Code-first, IDE-native | Pro-code, SDK |
| Best for | HR, IT helpdesk, CS | DevEx, code, PRs | Vertical, multi-agent |
| Connectors | M365, Dataverse, PP | Repos, MCP, GitHub API | Any (Python, REST, MCP) |
| Time-to-pilot | Hours to days | Days | Weeks |
| Customization | Topics + connectors | Custom agents in repo | Full code + fine-tune |
| Governance | Power Platform admin | GitHub policies | Azure RBAC + Content Safety |
Four agent types and where they fit
Beyond the platform question, agents cluster into four functional types:
Development agents live in the repository and IDE. Bug-fixing, refactoring, and test generation are the canonical use cases. GitHub Copilot Agents is the home for this type, with MCP tools bridging build systems and ticket integrations.
Productivity agents operate inside Microsoft 365. Copilot Studio handles custom topics; Microsoft 365 Copilot Agents provides embedded experiences in Teams, Outlook, and SharePoint for meeting notes, draft generation, and intelligent search.
Business-process agents handle onboarding, approvals, and claims — workflows that cross multiple systems. Copilot Studio covers the conversational layer. Azure AI Foundry takes over when strict SLAs, multi-agent orchestration, or fine-tuning are required.
Data and analytics agents translate natural language into SQL, generate insight summaries, and surface anomalies. Azure AI Foundry, grounded on Fabric, Synapse, or a data warehouse, is the right platform here. Strict prompt engineering, a structured evaluation harness, and human approval before publish are mandatory.
Human-in-the-Loop guardrails
The governing principle is direct: more autonomy requires more guardrails, not fewer. An agent that can act on regulated data, sign documents, move money, or change customer records must have explicit human checkpoints. The cost of one wrong autonomous action exceeds the savings of one hundred correct ones.
Every action an agent can take belongs in one of four quadrants:
- Q1 — Automate: low impact, high reversibility. Commit message suggestions, email draft summaries, meeting notes. Run in the agent loop with audit logging but no checkpoint.
- Q2 — Review: high impact, high reversibility. Opening a PR, scheduling a meeting, sending a draft to a client. Human approves before commit or send.
- Q3 — Confirm: low impact, low reversibility. Archiving a ticket, closing a conversation, deleting a temp file. Single confirmation step.
- Q4 — Dual control: high impact, low reversibility. Signing a contract, transferring funds, changing RBAC permissions, deleting production data, filing taxes. Two humans approve; audit log with signed evidence.
Three implementation patterns cover most cases. Approve-before: the agent prepares an action and waits at a checkpoint; approval is logged with reviewer identity. Sample-and-review: the agent acts at high volume, a random sample is audited, and KPIs trigger escalation — suited for tagging, classification, and routing. Dual-control: an initiator and a separate approver, never the same person, with cryptographic signature on both — mandatory for finance, legal, and production data changes.
Vertical patterns across industries
The same multi-agent choreography pattern recurs across industries, adapted to domain rules:
- Finance — KYC/AML triage: a document agent reads onboarding files, a risk-scoring agent matches against sanctions lists, an escalation agent routes to the compliance officer with dual-control on approval.
- Healthcare — prior authorization: a clinical-extraction agent plus a payer-rules RAG layer plus a physician HITL checkpoint before submission. Authorization time drops from days to hours; all decisions are logged for audit.
- Retail — returns and reverse logistics: a triage agent classifies return reason, a refund agent runs the policy check, a logistics agent books pickup. Human-in-the-Loop activates only on exceptions above the SKU threshold.
- Manufacturing — predictive maintenance: a telemetry agent watches IoT signals, a diagnostics agent proposes work orders, a scheduling agent slots technicians. Plant manager approval is required for work orders exceeding four hours.
Architecture in six layers
Production-grade agent programs are built on platform primitives, not around them. The stack has six layers, from foundation to surface:
- Platform and governance — Identity, RBAC, Content Safety, audit, observability, FinOps. Same as the rest of Azure.
- Models — Foundry catalog: GPT-4o, Claude, Llama, Phi. Selected per task; fine-tuned where it pays.
- Context (RAG) — Vector store, semantic context layer, recipe registry, identity-scoped retrieval.
- Tools (MCP) — Catalogued, versioned, scoped tools. MCP servers, native plugins, and custom skills.
- Orchestration — Multi-agent runtime, planning, retries, HITL checkpoints, evaluation.
- Surface — Teams, Outlook, IDE, custom apps — where users meet the agent.
Five principles govern every layer: start narrow (one use case, one agent, one team — generalize after value is proven); reuse Azure governance; catalogue every tool with scoped tokens and per-call audit; evaluate before deploy with a golden test set and regression on every model swap; and plan the deprecation from day one, versioning every prompt and keeping rollback available.
Implementation roadmap
A five-phase, twelve-month journey takes an enterprise from first pilot to production-grade agent fleet:
- Phase 1 — Discover (month 1): use-case mapping, value-versus-effort scoring, stakeholder sign-off.
- Phase 2 — Pilot (months 2–3): one agent, one team, closed-loop evaluation.
- Phase 3 — Harden (months 4–6): RBAC and audit wired in, SLA and cost caps set, HITL checkpoints defined.
- Phase 4 — Scale (months 7–9): tool registry, multi-agent patterns, self-service onboarding for new teams.
- Phase 5 — Operate (months 10–12+): FinOps and drift management, model-swap drills, quarterly review cadence.
Each phase has explicit exit criteria. Piloting without hardening is a demo. Scaling without operating is debt.
Três plataformas, um framework de decisão
O portfólio de agentes de IA da Microsoft é construído sobre três plataformas distintas, cada uma voltada a um público diferente e a uma superfície de controle diferente. Entender qual plataforma usar — e quando — é a decisão fundamental que toda equipe corporativa precisa tomar antes de escrever uma única linha de código de agente.
As três plataformas são Copilot Studio, GitHub Copilot Agents e Azure AI Foundry. Elas são complementares, não concorrentes. A maioria das empresas termina utilizando as três; a questão é qual caso de uso vai para onde.
O que é, de fato, um agente de IA
Antes de comparar plataformas, vale ser preciso sobre o que separa um agente de um chatbot. Um chatbot é sem estado e reativo: recebe uma pergunta e retorna uma única resposta, sem memória entre turnos e sem capacidade de perseguir um objetivo. Um agente é orientado a objetivos, com estado e capaz de usar ferramentas. Ele recebe um objetivo, planeja uma sequência de passos, chama ferramentas, observa resultados e itera até que o objetivo seja alcançado — ou escalona para um humano quando não consegue avançar.
Todo agente é construído a partir de cinco componentes:
- Cérebro — um LLM (GPT-4o, Claude, Llama, Phi) que raciocina sobre a entrada e planeja o próximo passo. Escolhido por tarefa.
- Memória — histórico da conversa, rascunho, vector store para RAG e memória episódica entre execuções. Limitada por política.
- Ferramentas — pesquisa, consultas a banco de dados, chamadas REST, execução de código, gatilhos de fluxo de trabalho. Catalogadas e com escopo definido.
- Política — RBAC, filtros de conteúdo, limites de taxa, checkpoints de Humano no Loop e auditoria. Inegociável.
- Orquestração — o loop planejar-agir-observar, coordenação multi-agente, retentativas e timeouts. Responsabilidade da plataforma.
As três plataformas
O Copilot Studio é voltado a usuários de negócio e desenvolvedores cidadãos. Oferece autoria de tópicos por arrastar e soltar, conectores nativos com Microsoft 365, Dataverse e Power Platform, e governança pelo centro de administração do Power Platform. O tempo até o piloto é medido em horas a dias. É a ferramenta certa para assistentes de RH, bots de helpdesk de TI e experiências de atendimento ao cliente em que a equipe de negócio é proprietária do agente.
O GitHub Copilot Agents é voltado a engenheiros de software. Agent Mode, agentes personalizados definidos em .github/agents/, integrações com ferramentas MCP e experiências nativas na IDE fazem dele o lar natural para geração de código, refatoração, automação de pull requests e geração de testes. A governança segue o modelo de políticas já existente do GitHub. Pilotos podem entrar em produção em dias.
O Azure AI Foundry é voltado a engenheiros de ML e equipes de plataforma. Oferece o SDK completo, o catálogo de modelos, orquestração multi-agente, pipelines de fine-tuning, harnesses de avaliação e observabilidade — tudo o que é necessário para construir agentes verticais de nível produtivo em escala. A governança usa RBAC do Azure e Azure AI Content Safety. O tempo até o piloto é de semanas, mas o teto é ilimitado.
A matriz de decisão
| Critério | Copilot Studio | GitHub Copilot Agents | Azure AI Foundry |
|---|---|---|---|
| Público | Negócio / dev cidadão | Engenheiros de software | ML / equipes de plataforma |
| Nível técnico | Low-code, no-code | Code-first, nativo na IDE | Pro-code, SDK |
| Melhor para | RH, helpdesk TI, CS | DevEx, código, PRs | Vertical, multi-agente |
| Conectores | M365, Dataverse, PP | Repos, MCP, GitHub API | Qualquer (Python, REST, MCP) |
| Tempo até piloto | Horas a dias | Dias | Semanas |
| Customização | Tópicos + conectores | Agentes personalizados no repo | Código completo + fine-tune |
| Governança | Admin Power Platform | Políticas GitHub | Azure RBAC + Content Safety |
Quatro tipos de agentes e onde cada um se encaixa
Além da escolha de plataforma, os agentes se agrupam em quatro tipos funcionais:
Agentes de desenvolvimento vivem no repositório e na IDE. Correção de bugs, refatoração e geração de testes são os casos de uso canônicos. O GitHub Copilot Agents é o lar desse tipo, com ferramentas MCP conectando sistemas de build e integrações de tickets.
Agentes de produtividade operam dentro do Microsoft 365. O Copilot Studio cuida dos tópicos personalizados; os Microsoft 365 Copilot Agents oferecem experiências embutidas no Teams, Outlook e SharePoint para notas de reunião, geração de rascunhos e pesquisa inteligente.
Agentes de processos de negócio tratam de onboarding, aprovações e sinistros — fluxos de trabalho que cruzam múltiplos sistemas. O Copilot Studio cobre a camada conversacional. O Azure AI Foundry assume quando SLAs rigorosos, orquestração multi-agente ou fine-tuning são necessários.
Agentes de dados e analytics traduzem linguagem natural em SQL, geram resumos de insights e identificam anomalias. O Azure AI Foundry, ancorado no Fabric, Synapse ou em um data warehouse, é a plataforma correta aqui. Engenharia de prompt rigorosa, um harness de avaliação estruturado e aprovação humana antes da publicação são obrigatórios.
Guardrails de Humano no Loop
O princípio orientador é direto: mais autonomia exige mais guardrails, não menos. Um agente que pode agir sobre dados regulados, assinar documentos, movimentar dinheiro ou alterar registros de clientes deve ter checkpoints humanos explícitos. O custo de uma ação autônoma errada supera a economia de cem ações corretas.
Toda ação que um agente pode executar pertence a um de quatro quadrantes:
- Q1 — Automatizar: baixo impacto, alta reversibilidade. Sugestões de mensagem de commit, resumos de rascunhos de e-mail, notas de reunião. Executar no loop do agente com log de auditoria, sem checkpoint.
- Q2 — Revisar: alto impacto, alta reversibilidade. Abrir um PR, agendar uma reunião, enviar um rascunho ao cliente. Humano aprova antes do commit ou envio.
- Q3 — Confirmar: baixo impacto, baixa reversibilidade. Arquivar um ticket, encerrar uma conversa, excluir um arquivo temporário. Etapa única de confirmação.
- Q4 — Controle duplo: alto impacto, baixa reversibilidade. Assinar contrato, transferir fundos, alterar permissões RBAC, excluir dados de produção, protocolar impostos. Dois humanos aprovam; log de auditoria com evidência assinada.
Três padrões de implementação cobrem a maioria dos casos. Aprovar antes: o agente prepara uma ação e aguarda em um checkpoint; a aprovação é registrada com a identidade do revisor. Amostragem e revisão: o agente age em alto volume, uma amostra aleatória é auditada e KPIs disparam escalonamento — adequado para etiquetagem, classificação e roteamento. Controle duplo: um iniciador e um aprovador separado, nunca a mesma pessoa, com assinatura criptográfica de ambos — obrigatório para finanças, jurídico e alterações em dados de produção.
Padrões verticais por setor
O mesmo padrão de coreografia multi-agente se repete em diferentes setores, adaptado às regras de cada domínio:
- Financeiro — triagem KYC/AML: um agente de documentos lê os arquivos de onboarding, um agente de pontuação de risco cruza com listas de sanções, um agente de escalonamento encaminha ao compliance com controle duplo na aprovação.
- Saúde — autorização prévia: um agente de extração clínica mais uma camada RAG com regras de pagadores mais um checkpoint HITL com o médico antes da submissão. O tempo de autorização cai de dias para horas; todas as decisões são registradas para auditoria.
- Varejo — devoluções e logística reversa: um agente de triagem classifica o motivo da devolução, um agente de reembolso executa a verificação de política, um agente de logística agenda a coleta. O Humano no Loop é acionado apenas em exceções acima do limite de SKU.
- Manufatura — manutenção preditiva: um agente de telemetria monitora sinais de IoT, um agente de diagnóstico propõe ordens de serviço, um agente de agendamento aloca técnicos. A aprovação do gerente de planta é necessária para ordens de serviço superiores a quatro horas.
Arquitetura em seis camadas
Programas de agentes de nível produtivo são construídos sobre primitivos da plataforma, não em torno deles. A pilha tem seis camadas, da fundação à superfície:
- Plataforma e governança — Identidade, RBAC, Content Safety, auditoria, observabilidade, FinOps. Iguais ao restante do Azure.
- Modelos — Catálogo do Foundry: GPT-4o, Claude, Llama, Phi. Selecionados por tarefa; com fine-tuning onde compensa.
- Contexto (RAG) — Vector store, camada de contexto semântico, registro de receitas, recuperação com escopo de identidade.
- Ferramentas (MCP) — Ferramentas catalogadas, versionadas e com escopo. Servidores MCP, plugins nativos e skills personalizadas.
- Orquestração — Runtime multi-agente, planejamento, retentativas, checkpoints HITL, avaliação.
- Superfície — Teams, Outlook, IDE, apps personalizados — onde os usuários encontram o agente.
Cinco princípios regem cada camada: comece estreito (um caso de uso, um agente, uma equipe — generalize após provar o valor); reutilize a governança do Azure; catalogue cada ferramenta com tokens com escopo e auditoria por chamada; avalie antes de implantar com um conjunto de testes dourados e regressão a cada troca de modelo; e planeje a depreciação desde o primeiro dia, versionando cada prompt e mantendo o rollback disponível.
Roadmap de implementação
Uma jornada de cinco fases e doze meses leva uma empresa do primeiro piloto a uma frota de agentes de nível produtivo:
- Fase 1 — Descoberta (mês 1): mapeamento de casos de uso, pontuação valor versus esforço, aprovação dos stakeholders.
- Fase 2 — Piloto (meses 2–3): um agente, uma equipe, avaliação em loop fechado.
- Fase 3 — Endurecimento (meses 4–6): RBAC e auditoria configurados, SLA e limites de custo definidos, checkpoints HITL estabelecidos.
- Fase 4 — Escala (meses 7–9): registro de ferramentas, padrões multi-agente, onboarding self-service para novas equipes.
- Fase 5 — Operação (meses 10–12+): FinOps e gestão de drift, exercícios de troca de modelo, cadência de revisão trimestral.
Cada fase tem critérios explícitos de saída. Pilotar sem endurecer é uma demonstração. Escalar sem operar é dívida técnica.
Tres plataformas, un framework de decisión
El portafolio de agentes de IA de Microsoft está construido sobre tres plataformas distintas, cada una orientada a una audiencia diferente y a una superficie de control diferente. Entender qué plataforma usar — y cuándo — es la decisión fundamental que todo equipo empresarial debe tomar antes de escribir una sola línea de código de agente.
Las tres plataformas son Copilot Studio, GitHub Copilot Agents y Azure AI Foundry. Son complementarias, no competitivas. La mayoría de las empresas termina utilizando las tres; la pregunta es qué caso de uso va a dónde.
Qué es realmente un agente de IA
Antes de comparar plataformas, conviene ser preciso sobre lo que separa a un agente de un chatbot. Un chatbot es sin estado y reactivo: recibe una pregunta y devuelve una única respuesta, sin memoria entre turnos y sin capacidad de perseguir un objetivo. Un agente es orientado a objetivos, con estado y capaz de usar herramientas. Recibe un objetivo, planifica una secuencia de pasos, llama a herramientas, observa resultados e itera hasta que el objetivo se alcanza — o escala a un humano cuando no puede avanzar.
Todo agente se construye a partir de cinco componentes:
- Cerebro — un LLM (GPT-4o, Claude, Llama, Phi) que razona sobre la entrada y planifica el siguiente paso. Elegido por tarea.
- Memoria — historial de conversación, borrador, vector store para RAG y memoria episódica entre ejecuciones. Acotada por política.
- Herramientas — búsqueda, consultas a bases de datos, llamadas REST, ejecución de código, disparadores de flujos de trabajo. Catalogadas y con alcance definido.
- Política — RBAC, filtros de contenido, límites de tasa, puntos de control de Humano en el Bucle y auditoría. No negociable.
- Orquestación — el bucle planificar-actuar-observar, coordinación multi-agente, reintentos y tiempos de espera. Responsabilidad de la plataforma.
Las tres plataformas
Copilot Studio está dirigido a usuarios de negocio y desarrolladores ciudadanos. Ofrece creación de tópicos por arrastrar y soltar, conectores nativos con Microsoft 365, Dataverse y Power Platform, y gobernanza a través del centro de administración de Power Platform. El tiempo hasta el piloto se mide en horas o días. Es la herramienta adecuada para asistentes de RR. HH., bots de helpdesk de TI y experiencias de atención al cliente en las que el equipo de negocio es propietario del agente.
GitHub Copilot Agents está dirigido a ingenieros de software. Agent Mode, agentes personalizados definidos en .github/agents/, integraciones con herramientas MCP y experiencias nativas en el IDE lo convierten en el hogar natural para la generación de código, la refactorización, la automatización de pull requests y la generación de pruebas. La gobernanza sigue el modelo de políticas existente en GitHub. Los pilotos pueden estar en producción en días.
Azure AI Foundry está dirigido a ingenieros de ML y equipos de plataforma. Proporciona el SDK completo, el catálogo de modelos, orquestación multi-agente, pipelines de fine-tuning, harnesses de evaluación y observabilidad — todo lo necesario para construir agentes verticales de nivel productivo a escala. La gobernanza utiliza RBAC de Azure y Azure AI Content Safety. El tiempo hasta el piloto es de semanas, pero el techo es ilimitado.
La matriz de decisión
| Criterio | Copilot Studio | GitHub Copilot Agents | Azure AI Foundry |
|---|---|---|---|
| Audiencia | Negocio / dev ciudadano | Ingenieros de software | ML / equipos de plataforma |
| Nivel técnico | Low-code, no-code | Code-first, nativo en IDE | Pro-code, SDK |
| Mejor para | RR. HH., helpdesk TI, CS | DevEx, código, PRs | Vertical, multi-agente |
| Conectores | M365, Dataverse, PP | Repos, MCP, GitHub API | Cualquiera (Python, REST, MCP) |
| Tiempo hasta piloto | Horas a días | Días | Semanas |
| Personalización | Tópicos + conectores | Agentes personalizados en repo | Código completo + fine-tune |
| Gobernanza | Admin Power Platform | Políticas GitHub | Azure RBAC + Content Safety |
Cuatro tipos de agentes y dónde encaja cada uno
Más allá de la elección de plataforma, los agentes se agrupan en cuatro tipos funcionales:
Agentes de desarrollo viven en el repositorio y en el IDE. La corrección de errores, la refactorización y la generación de pruebas son los casos de uso canónicos. GitHub Copilot Agents es el hogar de este tipo, con herramientas MCP que conectan sistemas de compilación e integraciones de tickets.
Agentes de productividad operan dentro de Microsoft 365. Copilot Studio gestiona los tópicos personalizados; los Microsoft 365 Copilot Agents ofrecen experiencias embebidas en Teams, Outlook y SharePoint para notas de reunión, generación de borradores y búsqueda inteligente.
Agentes de procesos de negocio gestionan incorporaciones, aprobaciones y reclamaciones — flujos de trabajo que cruzan múltiples sistemas. Copilot Studio cubre la capa conversacional. Azure AI Foundry toma el control cuando se requieren SLA estrictos, orquestación multi-agente o fine-tuning.
Agentes de datos y analítica traducen lenguaje natural a SQL, generan resúmenes de insights e identifican anomalías. Azure AI Foundry, anclado en Fabric, Synapse o un almacén de datos, es la plataforma correcta aquí. La ingeniería de prompts estricta, un harness de evaluación estructurado y la aprobación humana antes de publicar son obligatorios.
Controles de Humano en el Bucle
El principio rector es directo: más autonomía requiere más controles, no menos. Un agente que puede actuar sobre datos regulados, firmar documentos, mover dinero o modificar registros de clientes debe tener puntos de control humanos explícitos. El costo de una acción autónoma incorrecta supera el ahorro de cien acciones correctas.
Cada acción que un agente puede ejecutar pertenece a uno de cuatro cuadrantes:
- C1 — Automatizar: bajo impacto, alta reversibilidad. Sugerencias de mensajes de commit, resúmenes de borradores de correo, notas de reunión. Ejecutar en el bucle del agente con registro de auditoría, sin punto de control.
- C2 — Revisar: alto impacto, alta reversibilidad. Abrir un PR, programar una reunión, enviar un borrador al cliente. El humano aprueba antes del commit o el envío.
- C3 — Confirmar: bajo impacto, baja reversibilidad. Archivar un ticket, cerrar una conversación, eliminar un archivo temporal. Paso único de confirmación.
- C4 — Control dual: alto impacto, baja reversibilidad. Firmar contrato, transferir fondos, cambiar permisos RBAC, eliminar datos de producción, presentar impuestos. Dos personas aprueban; registro de auditoría con evidencia firmada.
Tres patrones de implementación cubren la mayoría de los casos. Aprobar antes: el agente prepara una acción y espera en un punto de control; la aprobación se registra con la identidad del revisor. Muestreo y revisión: el agente actúa en alto volumen, se audita una muestra aleatoria y los KPI activan el escalado — adecuado para etiquetado, clasificación y enrutamiento. Control dual: un iniciador y un aprobador separado, nunca la misma persona, con firma criptográfica de ambos — obligatorio para finanzas, jurídico y cambios en datos de producción.
Patrones verticales por sector
El mismo patrón de coreografía multi-agente se repite en distintos sectores, adaptado a las reglas de cada dominio:
- Finanzas — triaje KYC/AML: un agente de documentos lee los archivos de incorporación, un agente de puntuación de riesgo cruza con listas de sanciones, un agente de escalado dirige al responsable de cumplimiento con control dual en la aprobación.
- Salud — autorización previa: un agente de extracción clínica más una capa RAG con reglas de pagadores más un punto de control HITL con el médico antes de la presentación. El tiempo de autorización baja de días a horas; todas las decisiones quedan registradas para auditoría.
- Retail — devoluciones y logística inversa: un agente de triaje clasifica el motivo de la devolución, un agente de reembolso ejecuta la verificación de política, un agente de logística programa la recogida. El Humano en el Bucle se activa solo en excepciones por encima del umbral de SKU.
- Manufactura — mantenimiento predictivo: un agente de telemetría monitorea señales de IoT, un agente de diagnóstico propone órdenes de trabajo, un agente de programación asigna técnicos. La aprobación del gerente de planta es necesaria para órdenes de trabajo superiores a cuatro horas.
Arquitectura en seis capas
Los programas de agentes de nivel productivo se construyen sobre los primitivos de la plataforma, no alrededor de ellos. La pila tiene seis capas, de la base a la superficie:
- Plataforma y gobernanza — Identidad, RBAC, Content Safety, auditoría, observabilidad, FinOps. Iguales al resto de Azure.
- Modelos — Catálogo de Foundry: GPT-4o, Claude, Llama, Phi. Seleccionados por tarea; con fine-tuning donde resulta rentable.
- Contexto (RAG) — Vector store, capa de contexto semántico, registro de recetas, recuperación con alcance de identidad.
- Herramientas (MCP) — Herramientas catalogadas, versionadas y con alcance. Servidores MCP, plugins nativos y skills personalizadas.
- Orquestación — Runtime multi-agente, planificación, reintentos, puntos de control HITL, evaluación.
- Superficie — Teams, Outlook, IDE, aplicaciones personalizadas — donde los usuarios encuentran al agente.
Cinco principios rigen cada capa: comenzar estrecho (un caso de uso, un agente, un equipo — generalizar después de probar el valor); reutilizar la gobernanza de Azure; catalogar cada herramienta con tokens de alcance y auditoría por llamada; evaluar antes de desplegar con un conjunto de pruebas de referencia y regresión en cada cambio de modelo; y planificar la depreciación desde el primer día, versionando cada prompt y manteniendo disponible el rollback.
Hoja de ruta de implementación
Un recorrido de cinco fases y doce meses lleva a una empresa desde el primer piloto hasta una flota de agentes de nivel productivo:
- Fase 1 — Descubrir (mes 1): mapeo de casos de uso, puntuación valor versus esfuerzo, aprobación de los interesados.
- Fase 2 — Piloto (meses 2–3): un agente, un equipo, evaluación en bucle cerrado.
- Fase 3 — Fortalecer (meses 4–6): RBAC y auditoría configurados, SLA y límites de costo establecidos, puntos de control HITL definidos.
- Fase 4 — Escalar (meses 7–9): registro de herramientas, patrones multi-agente, incorporación de autoservicio para nuevos equipos.
- Fase 5 — Operar (meses 10–12+): FinOps y gestión de deriva, ejercicios de cambio de modelo, cadencia de revisión trimestral.
Cada fase tiene criterios de salida explícitos. Pilotar sin fortalecer es una demostración. Escalar sin operar es deuda técnica.
Start with the platform, not the agents. Comece pela plataforma, não pelos agentes. Comience por la plataforma, no por los agentes.
Building the future of software development with AI and Agentic DevOps.