Agents, Skills, Plugins & Customization MasterclassAgentes, Skills, Plugins & Customização: MasterclassAgentes, Skills, Plugins y Personalización: Masterclass
Eight-part masterclass covering the anatomy of AI agents, the three Microsoft platforms, Human-in-the-Loop guardrails, and a vehicle leasing case study — from first definition to production deployment.Masterclass em oito partes cobrindo a anatomia de agentes de IA, as três plataformas Microsoft, os quadrantes de Human-in-the-Loop e um estudo de caso no setor de locação de veículos — da definição ao deploy em produção.Masterclass en ocho partes que cubre la anatomía de los agentes de IA, las tres plataformas de Microsoft, los cuadrantes de Human-in-the-Loop y un caso de estudio en el sector de arrendamiento de vehículos — desde la definición hasta el despliegue en producción.
What Is an AI Agent?
An AI agent is software that perceives, decides, and acts — with autonomy bounded by policy. That definition matters because it draws a clear line between what came before and what enterprises are deploying today.
Yesterday’s chatbot was stateless and reactive: it received a question and returned a single answer. It had no memory across turns, no ability to call tools, and no notion of pursuing a goal. Today’s agent is goal-driven, stateful, and tool-using. It receives a goal, plans a path to reach it, calls external tools, observes the results, and iterates until the goal is met — or escalates to a human when it cannot proceed safely.
Every agent, regardless of platform, is composed of five components:
- Brain — the LLM (GPT-4o, Claude, Llama, Phi) that reasons over input and plans the next step. Picked per task.
- Memory — conversation history, a working scratchpad, a vector store for RAG, and episodic memory across runs. Bounded by policy.
- Tools — functions, APIs, database queries, code execution, workflow triggers. Catalogued and scoped through MCP, plugins, or skills.
- Policy — RBAC, content filters, rate limits, Human-in-the-Loop checkpoints, and audit trails. Non-negotiable.
- Orchestration — the plan-act-observe loop, multi-agent coordination, retries, and timeouts. The platform’s responsibility.
Brain reasons. Memory persists. Tools act on the world. Policy bounds. Orchestration drives the loop.
The Three Platforms
Microsoft offers three distinct platforms for building AI agents. They are complementary, not competitive — most enterprises run all three. The question is which use case lands where.
Copilot Studio targets business users and citizen developers. It provides drag-and-drop topic authoring, native connectors to Microsoft 365, Dataverse, and Power Platform, and a deployment path measured in hours to days. It is the right choice for HR self-service, IT helpdesk automation, and customer-service bots.
GitHub Copilot Agents targets software engineers working inside the IDE and repository. Agent Mode, custom agents defined in .github/agents/, MCP tool integration, and extensions make it the home for code generation, refactoring, PR automation, and test generation.
Azure AI Foundry targets ML engineers and platform teams. The full SDK, a model catalog covering GPT-4o through open-source models, multi-agent orchestration, fine-tuning pipelines, and production-grade observability make it the right foundation for vertical agents with strict SLAs. Time-to-pilot is measured in weeks, but the ceiling is unlimited.
| Criteria | Copilot Studio | GitHub Copilot Agents | Azure AI Foundry |
|---|---|---|---|
| Audience | Business / citizen dev | Software engineers | ML / platform teams |
| Skill level | Low-code, no-code | Code-first, IDE-native | Pro-code, SDK |
| Best for | HR, IT helpdesk, CS | DevEx, code, PRs | Vertical, multi-agent |
| Time-to-pilot | Hours to days | Days | Weeks |
| Governance | Power Platform admin | GitHub policies | Azure RBAC + Content Safety |
Agent Types
Four agent types map cleanly onto the platform landscape:
Development agents live in the repository and IDE. GitHub Copilot Agents is the natural home, with custom agents in .github/agents/ and MCP tools for build and ticket integration. Typical tasks: bug-fix, refactor, test generation.
Productivity agents operate inside Microsoft 365. Copilot Studio handles custom topic authoring; Microsoft 365 Copilot Agents deliver embedded experiences in Teams, Outlook, and SharePoint. Typical tasks: meeting notes, email drafts, document search.
Business process agents orchestrate across systems. Copilot Studio handles the conversational layer; Azure AI Foundry takes over when SLAs, multi-agent coordination, or fine-tuning are required. Typical tasks: employee onboarding, approval workflows, claims processing.
Data and analytics agents ground their responses on enterprise data held in Fabric, Synapse, or a custom data warehouse. They require strict prompt engineering, a rigorous evaluation harness, and human sign-off before publishing outputs. Typical tasks: natural-language-to-SQL, insight summaries.
Human-in-the-Loop
More autonomy requires more guardrails, not fewer. An agent that can act on regulated data, sign documents, move money, or change customer records must have explicit human checkpoints. The cost of one wrong autonomous action exceeds the savings of one hundred correct ones.
The HITL decision framework maps every action to one of four quadrants based on impact and reversibility:
- Q1 — Automate: Low impact, high reversibility. Suggest commit messages, draft email replies, summarize meetings, search documents. Run in the agent loop; audit but no checkpoint.
- Q2 — Review: High impact, high reversibility. Open a PR, schedule a meeting, send a draft to a client. Human approves before commit or send.
- Q3 — Confirm: Low impact, low reversibility. Delete a temp file, archive a ticket, close a conversation. Single confirmation step.
- Q4 — Dual Control: High impact, low reversibility. Sign a contract, transfer funds, change RBAC, delete production data, file taxes. Two humans approve; audit plus signed evidence required.
Three implementation patterns cover most cases. Approve-before has the agent propose and wait at a checkpoint before acting — correct for PRs, drafts, and recommendations. Sample-and-review lets the agent act at high volume while a random sample is audited and KPIs trigger escalation — correct for tagging, classification, and routing. Dual-control requires an initiator and a separate approver with cryptographic signatures on both — correct for finance, legal, and production data.
Case Study: Vehicle Leasing
Two real operational problems illustrate multi-agent design in the vehicle leasing and sales industry.
Traffic-fine driver indication has a 15-day legal deadline. Miss it, and the leasing company pays the fine plus penalty. The manual process today is: mailroom receives a paper notice, an operator scans and transcribes it into Excel, emails the customer who leased the car, and hopes for a timely reply. Deadlines slip regularly.
The agent-led flow runs four specialized agents on Azure AI Foundry. An ingestion agent (Document Intelligence) extracts plate number, infraction date, code, value, and deadline from the scanned notice. A lookup agent cross-references SAP and Salesforce to identify the active lessee. A notification agent sends a portal link, SMS, and email — with HITL review on the notification template by the operations team. A tracking agent escalates automatically on day 7, sends a final ping on day 12, and routes to a paralegal on day 14.
Tax compliance for NF-e faces a different failure mode: one wrong CFOP code blocks invoices for an entire month. Every contract closure, lease termination, and inter-branch vehicle transfer must produce a valid Nota Fiscal Eletrônica conforming to RICMS rules that vary by state and product category (NCM). Manual issuance breaks at scale.
The compliance flow runs three agents triggered by an ERP event (SAP, Oracle, or TOTVS). A RAG-based tax classifier uses Azure AI Search over RICMS legislation and the NCM table to select the correct CFOP, CST, and ICMS rate. An NF-e issuer agent calls the SEFAZ NF-e 4.0 API, handles retries, contingency mode, and cancellation flow. A bookkeeping agent runs a daily reconciliation — SPED, EFD-Contribuições, in/out ledgers, and the ICMS-ST report. Monthly tax filing carries dual-control HITL with CFO sign-off.
Vertical Examples
The same multi-agent pattern — ingest, classify, act, escalate — transfers across industries:
- Finance: A document agent reads onboarding files, a risk-scoring agent matches sanctions lists, and an escalation agent routes to a compliance officer with dual-control on KYC/AML approval.
- Healthcare: A clinical-extraction agent plus a payer-rules RAG layer, with HITL involving the physician before prior-authorization submission. Authorization time drops from days to hours; all decisions are logged for audit.
- Retail: A triage agent classifies a return reason, a refund agent runs the policy check, and a logistics agent books pickup. HITL applies only to exceptions above the SKU value threshold.
- Manufacturing: A telemetry agent monitors IoT signals, a diagnostics agent proposes work orders, and a scheduling agent slots technicians. The plant manager approves any work order longer than four hours.
Architecture Principles
Production-grade agent programs are built in six layers, from the ground up: Platform & Governance (identity, RBAC, Content Safety, audit, observability, FinOps — the same controls as the rest of Azure), Models (Foundry catalog, picked per task, fine-tuned where justified), Context & RAG (vector store, semantic retrieval, identity-scoped access), Tools & MCP (catalogued, versioned, and scoped MCP servers and plugins), Orchestration (multi-agent runtime, planning, retries, HITL checkpoints, evaluation), and Surface (Teams, Outlook, IDE, or custom app — where users meet the agent).
Five principles govern every Microsoft AI agent program:
- Start narrow. One use case, one agent, one team. Generalize only after value is proven.
- Reuse Azure governance. Identity, RBAC, Content Safety, Purview — the same controls as the rest of the stack, not parallel ones.
- Catalogue every tool. MCP server registry, scoped tokens, audit per call. No agent talks to a random API.
- Evaluate before deploy. Golden test set per agent, regression on every model swap, latency budget per loop.
- Plan the deprecation. Version every prompt, log every change, keep the rollback — agents drift like models do.
Deployment Roadmap
The path from first pilot to a production-grade agent fleet runs five phases over twelve months:
Phase 1 — Discover (Month 1): Map use cases against value and effort, get stakeholder sign-off, select the pilot candidate.
Phase 2 — Pilot (Months 2–3): Deploy one agent with one team. Run a closed-loop evaluation before any broader access.
Phase 3 — Harden (Months 4–6): Implement RBAC and audit trails, set SLA targets and cost caps, wire HITL checkpoints into every relevant action.
Phase 4 — Scale (Months 7–9): Build the tool registry, introduce multi-agent orchestration, open self-service onboarding for new teams.
Phase 5 — Operate (Months 10–12+): Establish FinOps and drift monitoring, run model-swap drills, conduct quarterly reviews against the original value targets.
Each phase has explicit exit criteria. Piloting without hardening produces a demo. Scaling without operating produces debt.
O Que É um Agente de IA?
Um agente de IA é um software que percebe, decide e age — com autonomia delimitada por política. Essa definição importa porque traça uma linha clara entre o que existia antes e o que as empresas estão implantando hoje.
O chatbot de ontem era stateless e reativo: recebia uma pergunta e devolvia uma única resposta. Não tinha memória entre turnos, não conseguia chamar ferramentas e não perseguia objetivos. O agente de hoje é orientado a metas, stateful e capaz de usar ferramentas. Ele recebe um objetivo, planeja o caminho para alcançá-lo, chama ferramentas externas, observa os resultados e itera até que a meta seja atingida — ou escalona para um humano quando não consegue prosseguir com segurança.
Todo agente, independentemente da plataforma, é composto de cinco componentes:
- Cérebro — o LLM (GPT-4o, Claude, Llama, Phi) que raciocina sobre a entrada e planeja o próximo passo. Escolhido por tarefa.
- Memória — histórico de conversa, bloco de rascunho, vector store para RAG e memória episódica entre execuções. Delimitada por política.
- Ferramentas — funções, APIs, consultas a bancos de dados, execução de código, acionamento de workflows. Catalogadas e com escopo definido via MCP, plugins ou skills.
- Política — RBAC, filtros de conteúdo, limites de taxa, checkpoints de Human-in-the-Loop e trilhas de auditoria. Inegociável.
- Orquestração — o loop plan-act-observe, coordenação multi-agente, retentativas e timeouts. Responsabilidade da plataforma.
O cérebro raciocina. A memória persiste. As ferramentas agem no mundo. A política delimita. A orquestração conduz o loop.
As Três Plataformas
A Microsoft oferece três plataformas distintas para construir agentes de IA. Elas são complementares, não concorrentes — a maioria das empresas usa as três. A questão é qual caso de uso vai para qual plataforma.
Copilot Studio é voltado para usuários de negócio e desenvolvedores cidadãos. Oferece autoria de tópicos por drag-and-drop, conectores nativos para Microsoft 365, Dataverse e Power Platform, e um ciclo de deploy de horas a dias. É a escolha certa para autoatendimento de RH, automação de helpdesk de TI e bots de atendimento ao cliente.
GitHub Copilot Agents é voltado para engenheiros de software que trabalham dentro da IDE e do repositório. Agent Mode, agentes customizados definidos em .github/agents/, integração com ferramentas MCP e extensões fazem dele o ambiente ideal para geração de código, refatoração, automação de PRs e geração de testes.
Azure AI Foundry é voltado para engenheiros de ML e times de plataforma. O SDK completo, um catálogo de modelos do GPT-4o a modelos open source, orquestração multi-agente, pipelines de fine-tuning e observabilidade de nível produção fazem dele a base certa para agentes verticais com SLAs rigorosos. O tempo até o piloto é medido em semanas, mas o teto é ilimitado.
| Critério | Copilot Studio | GitHub Copilot Agents | Azure AI Foundry |
|---|---|---|---|
| Público | Negócio / dev cidadão | Engenheiros de software | ML / times de plataforma |
| Nível de skill | Low-code, no-code | Code-first, nativo na IDE | Pro-code, SDK |
| Melhor para | RH, helpdesk, CS | DevEx, código, PRs | Vertical, multi-agente |
| Tempo até piloto | Horas a dias | Dias | Semanas |
| Governança | Admin do Power Platform | Políticas do GitHub | Azure RBAC + Content Safety |
Tipos de Agente
Quatro tipos de agente se mapeiam claramente no panorama das plataformas:
Agentes de desenvolvimento vivem no repositório e na IDE. O GitHub Copilot Agents é o ambiente natural, com agentes customizados em .github/agents/ e ferramentas MCP para integração com build e tickets. Tarefas típicas: correção de bugs, refatoração, geração de testes.
Agentes de produtividade operam dentro do Microsoft 365. O Copilot Studio cuida da autoria de tópicos customizados; o Microsoft 365 Copilot Agents entrega experiências embarcadas no Teams, Outlook e SharePoint. Tarefas típicas: notas de reunião, rascunhos de e-mail, busca em documentos.
Agentes de processos de negócio orquestram entre sistemas. O Copilot Studio cuida da camada conversacional; o Azure AI Foundry assume quando SLAs, coordenação multi-agente ou fine-tuning são exigidos. Tarefas típicas: onboarding de colaboradores, fluxos de aprovação, processamento de sinistros.
Agentes de dados e analytics fundamentam suas respostas em dados corporativos no Fabric, Synapse ou em um data warehouse próprio. Exigem engenharia de prompt rigorosa, um harness de avaliação robusto e aprovação humana antes de publicar resultados. Tarefas típicas: linguagem natural para SQL, resumos de insights.
Human-in-the-Loop
Mais autonomia exige mais guardrails, não menos. Um agente que pode agir sobre dados regulados, assinar documentos, movimentar dinheiro ou alterar registros de clientes precisa ter checkpoints humanos explícitos. O custo de uma ação autônoma errada supera a economia de cem ações corretas.
O framework de decisão HITL mapeia cada ação para um de quatro quadrantes com base em impacto e reversibilidade:
- Q1 — Automatizar: Baixo impacto, alta reversibilidade. Sugerir mensagens de commit, redigir respostas de e-mail, resumir reuniões, buscar documentos. Executa no loop do agente; auditoria sem checkpoint.
- Q2 — Revisar: Alto impacto, alta reversibilidade. Abrir PR, agendar reunião, enviar rascunho ao cliente. Humano aprova antes do commit ou envio.
- Q3 — Confirmar: Baixo impacto, baixa reversibilidade. Deletar arquivo temporário, arquivar ticket, encerrar conversa. Passo único de confirmação.
- Q4 — Controle Duplo: Alto impacto, baixa reversibilidade. Assinar contrato, transferir fundos, alterar RBAC, deletar dados de produção, enviar declaração fiscal. Dois humanos aprovam; auditoria com evidência assinada obrigatória.
Três padrões de implementação cobrem a maioria dos casos. Aprovar antes faz o agente propor e aguardar em um checkpoint antes de agir — correto para PRs, rascunhos e recomendações. Amostrar e revisar deixa o agente agir em alto volume enquanto uma amostra aleatória é auditada e KPIs disparam escalação — correto para tagging, classificação e roteamento. Controle duplo exige um iniciador e um aprovador separado com assinaturas criptográficas em ambos — correto para finanças, jurídico e dados de produção.
Estudo de Caso: Locação de Veículos
Dois problemas operacionais reais ilustram o design multi-agente no setor de locação e venda de veículos.
A indicação do condutor em infrações de trânsito tem um prazo legal de 15 dias. Perder o prazo significa que a locadora paga a multa mais a penalidade. O processo manual atual é: o setor de correspondência recebe o aviso em papel, um operador digitaliza e transcreve no Excel, envia e-mail ao cliente que locou o veículo e aguarda resposta. Prazos escorregam com frequência.
O fluxo conduzido por agentes executa quatro agentes especializados no Azure AI Foundry. Um agente de ingestão (Document Intelligence) extrai placa, data da infração, código, valor e prazo do aviso digitalizado. Um agente de consulta cruza dados no SAP e no Salesforce para identificar o locatário ativo. Um agente de notificação envia link do portal, SMS e e-mail — com revisão HITL do template de notificação pela equipe de operações. Um agente de acompanhamento escalona automaticamente no dia 7, envia um alerta final no dia 12 e encaminha para o jurídico no dia 14.
A conformidade fiscal para NF-e enfrenta uma falha diferente: um código CFOP errado bloqueia notas fiscais de um mês inteiro. Cada encerramento de contrato, devolução de veículo e transferência entre filiais precisa gerar uma Nota Fiscal Eletrônica válida conforme as regras do RICMS, que variam por estado e categoria de produto (NCM). A emissão manual falha em escala.
O fluxo de conformidade executa três agentes disparados por um evento do ERP (SAP, Oracle ou TOTVS). Um agente classificador fiscal baseado em RAG usa o Azure AI Search sobre a legislação do RICMS e a tabela NCM para selecionar o CFOP, CST e alíquota de ICMS corretos. Um agente emissor de NF-e chama a API SEFAZ NF-e 4.0, trata retentativas, modo de contingência e fluxo de cancelamento. Um agente de escrituração executa a reconciliação diária — SPED, EFD-Contribuições, livros de entrada e saída e o relatório de ICMS-ST. O fechamento fiscal mensal possui HITL com controle duplo e assinatura do CFO.
Exemplos por Vertical
O mesmo padrão multi-agente — ingerir, classificar, agir, escalonar — se transfere entre setores:
- Finanças: Um agente de documentos lê arquivos de onboarding, um agente de pontuação de risco cruza listas de sanções e um agente de escalação encaminha ao compliance officer com controle duplo na aprovação de KYC/AML.
- Saúde: Um agente de extração clínica mais uma camada RAG de regras de planos de saúde, com HITL envolvendo o médico antes do envio da autorização prévia. O tempo de autorização cai de dias para horas; todas as decisões são registradas para auditoria.
- Varejo: Um agente de triagem classifica o motivo da devolução, um agente de reembolso executa a verificação de política e um agente de logística agenda a coleta. HITL se aplica apenas a exceções acima do limite de valor do SKU.
- Manufatura: Um agente de telemetria monitora sinais de IoT, um agente de diagnóstico propõe ordens de serviço e um agente de agendamento aloca técnicos. O gerente de planta aprova qualquer ordem de serviço superior a quatro horas.
Princípios de Arquitetura
Programas de agentes de nível produção são construídos em seis camadas, de baixo para cima: Plataforma & Governança (identidade, RBAC, Content Safety, auditoria, observabilidade, FinOps — os mesmos controles do restante do Azure), Modelos (catálogo do Foundry, escolhidos por tarefa, com fine-tuning onde justificado), Contexto & RAG (vector store, recuperação semântica, acesso com escopo por identidade), Ferramentas & MCP (servidores MCP e plugins catalogados, versionados e com escopo definido), Orquestração (runtime multi-agente, planejamento, retentativas, checkpoints HITL, avaliação) e Superfície (Teams, Outlook, IDE ou app customizado — onde os usuários encontram o agente).
Cinco princípios governam todo programa de agentes de IA da Microsoft:
- Comece estreito. Um caso de uso, um agente, um time. Generalize apenas depois que o valor for comprovado.
- Reutilize a governança do Azure. Identidade, RBAC, Content Safety, Purview — os mesmos controles do restante da stack, não paralelos.
- Catalogue cada ferramenta. Registro de servidores MCP, tokens com escopo, auditoria por chamada. Nenhum agente conversa com uma API aleatória.
- Avalie antes de fazer deploy. Golden test set por agente, regressão a cada troca de modelo, orçamento de latência por loop.
- Planeje a descontinuação. Versione cada prompt, registre cada mudança, mantenha o rollback — agentes derivam assim como modelos derivam.
Roadmap de Implementação
O caminho do primeiro piloto até uma frota de agentes de nível produção percorre cinco fases em doze meses:
Fase 1 — Descoberta (Mês 1): Mapear casos de uso por valor e esforço, obter aprovação dos stakeholders, selecionar o candidato ao piloto.
Fase 2 — Piloto (Meses 2–3): Implantar um agente com um time. Executar avaliação em loop fechado antes de qualquer acesso mais amplo.
Fase 3 — Endurecimento (Meses 4–6): Implementar RBAC e trilhas de auditoria, definir metas de SLA e tetos de custo, conectar checkpoints HITL em cada ação relevante.
Fase 4 — Escala (Meses 7–9): Construir o registro de ferramentas, introduzir orquestração multi-agente, abrir onboarding self-service para novos times.
Fase 5 — Operação (Meses 10–12+): Estabelecer FinOps e monitoramento de drift, realizar simulações de troca de modelo, conduzir revisões trimestrais contra as metas de valor originais.
Cada fase tem critérios de saída explícitos. Pilotar sem endurecer produz uma demo. Escalar sem operar produz dívida.
¿Qué Es un Agente de IA?
Un agente de IA es un software que percibe, decide y actúa — con autonomía delimitada por política. Esa definición importa porque traza una línea clara entre lo que existía antes y lo que las empresas están desplegando hoy.
El chatbot de ayer era sin estado y reactivo: recibía una pregunta y devolvía una única respuesta. No tenía memoria entre turnos, no podía llamar herramientas y no perseguía objetivos. El agente de hoy está orientado a metas, mantiene estado y usa herramientas. Recibe un objetivo, planifica el camino para alcanzarlo, llama herramientas externas, observa los resultados e itera hasta que la meta se cumple — o escala a un humano cuando no puede continuar de forma segura.
Todo agente, independientemente de la plataforma, se compone de cinco elementos:
- Cerebro — el LLM (GPT-4o, Claude, Llama, Phi) que razona sobre la entrada y planifica el siguiente paso. Elegido según la tarea.
- Memoria — historial de conversación, bloc de notas de trabajo, vector store para RAG y memoria episódica entre ejecuciones. Delimitada por política.
- Herramientas — funciones, APIs, consultas a bases de datos, ejecución de código, activación de flujos de trabajo. Catalogadas y con alcance definido mediante MCP, plugins o skills.
- Política — RBAC, filtros de contenido, límites de velocidad, puntos de control Human-in-the-Loop y registros de auditoría. No negociable.
- Orquestación — el ciclo plan-actuar-observar, coordinación multi-agente, reintentos y tiempos de espera. Responsabilidad de la plataforma.
El cerebro razona. La memoria persiste. Las herramientas actúan sobre el mundo. La política delimita. La orquestación impulsa el ciclo.
Las Tres Plataformas
Microsoft ofrece tres plataformas distintas para construir agentes de IA. Son complementarias, no competidoras — la mayoría de las empresas utiliza las tres. La pregunta es qué caso de uso va a cada plataforma.
Copilot Studio está orientado a usuarios de negocio y desarrolladores ciudadanos. Ofrece autoría de temas mediante drag-and-drop, conectores nativos para Microsoft 365, Dataverse y Power Platform, y un ciclo de despliegue de horas a días. Es la elección correcta para autoservicio de RRHH, automatización del helpdesk de TI y bots de atención al cliente.
GitHub Copilot Agents está orientado a ingenieros de software que trabajan dentro del IDE y el repositorio. Agent Mode, agentes personalizados definidos en .github/agents/, integración con herramientas MCP y extensiones lo convierten en el entorno ideal para generación de código, refactorización, automatización de PRs y generación de pruebas.
Azure AI Foundry está orientado a ingenieros de ML y equipos de plataforma. El SDK completo, un catálogo de modelos desde GPT-4o hasta modelos open source, orquestación multi-agente, pipelines de fine-tuning y observabilidad de nivel producción lo hacen la base adecuada para agentes verticales con SLAs estrictos. El tiempo hasta el piloto se mide en semanas, pero el techo es ilimitado.
| Criterio | Copilot Studio | GitHub Copilot Agents | Azure AI Foundry |
|---|---|---|---|
| Público | Negocio / dev ciudadano | Ingenieros de software | ML / equipos de plataforma |
| Nivel de habilidad | Low-code, no-code | Code-first, nativo en IDE | Pro-code, SDK |
| Mejor para | RRHH, helpdesk, CS | DevEx, código, PRs | Vertical, multi-agente |
| Tiempo hasta piloto | Horas a días | Días | Semanas |
| Gobernanza | Admin de Power Platform | Políticas de GitHub | Azure RBAC + Content Safety |
Tipos de Agente
Cuatro tipos de agente se mapean claramente en el panorama de plataformas:
Agentes de desarrollo viven en el repositorio y el IDE. GitHub Copilot Agents es el entorno natural, con agentes personalizados en .github/agents/ y herramientas MCP para integración con builds y tickets. Tareas típicas: corrección de errores, refactorización, generación de pruebas.
Agentes de productividad operan dentro de Microsoft 365. Copilot Studio gestiona la autoría de temas personalizados; Microsoft 365 Copilot Agents entrega experiencias embebidas en Teams, Outlook y SharePoint. Tareas típicas: notas de reuniones, borradores de correos, búsqueda en documentos.
Agentes de procesos de negocio orquestan entre sistemas. Copilot Studio gestiona la capa conversacional; Azure AI Foundry toma el relevo cuando se requieren SLAs, coordinación multi-agente o fine-tuning. Tareas típicas: incorporación de empleados, flujos de aprobación, procesamiento de reclamaciones.
Agentes de datos y analítica fundamentan sus respuestas en datos empresariales almacenados en Fabric, Synapse o un almacén de datos propio. Requieren ingeniería de prompt rigurosa, un harness de evaluación sólido y aprobación humana antes de publicar resultados. Tareas típicas: lenguaje natural a SQL, resúmenes de insights.
Human-in-the-Loop
Más autonomía requiere más guardrails, no menos. Un agente que puede actuar sobre datos regulados, firmar documentos, mover dinero o modificar registros de clientes debe tener puntos de control humanos explícitos. El coste de una acción autónoma incorrecta supera el ahorro de cien acciones correctas.
El framework de decisión HITL mapea cada acción a uno de cuatro cuadrantes según impacto y reversibilidad:
- Q1 — Automatizar: Bajo impacto, alta reversibilidad. Sugerir mensajes de commit, redactar respuestas de correo, resumir reuniones, buscar documentos. Se ejecuta en el ciclo del agente; auditoría sin punto de control.
- Q2 — Revisar: Alto impacto, alta reversibilidad. Abrir un PR, programar una reunión, enviar un borrador al cliente. El humano aprueba antes del commit o el envío.
- Q3 — Confirmar: Bajo impacto, baja reversibilidad. Eliminar un archivo temporal, archivar un ticket, cerrar una conversación. Paso único de confirmación.
- Q4 — Control Dual: Alto impacto, baja reversibilidad. Firmar un contrato, transferir fondos, modificar RBAC, eliminar datos de producción, presentar impuestos. Dos humanos aprueban; auditoría con evidencia firmada obligatoria.
Tres patrones de implementación cubren la mayoría de los casos. Aprobar antes hace que el agente proponga y espere en un punto de control antes de actuar — correcto para PRs, borradores y recomendaciones. Muestrear y revisar permite que el agente actúe en alto volumen mientras una muestra aleatoria es auditada y los KPIs disparan una escalada — correcto para etiquetado, clasificación y enrutamiento. Control dual requiere un iniciador y un aprobador separado con firmas criptográficas en ambos — correcto para finanzas, legal y datos de producción.
Caso de Estudio: Arrendamiento de Vehículos
Dos problemas operativos reales ilustran el diseño multi-agente en el sector de arrendamiento y venta de vehículos.
La indicación del conductor en multas de tráfico tiene un plazo legal de 15 días. Perderlo significa que la empresa arrendataria paga la multa más la penalización. El proceso manual actual es: el área de correspondencia recibe el aviso en papel, un operador lo escanea y transcribe en Excel, envía un correo al cliente que arrendó el vehículo y espera respuesta. Los plazos se incumplen con frecuencia.
El flujo dirigido por agentes ejecuta cuatro agentes especializados en Azure AI Foundry. Un agente de ingestión (Document Intelligence) extrae la matrícula, la fecha de la infracción, el código, el valor y el plazo del aviso escaneado. Un agente de consulta cruza datos en SAP y Salesforce para identificar al arrendatario activo. Un agente de notificación envía un enlace al portal, SMS y correo electrónico — con revisión HITL de la plantilla de notificación por el equipo de operaciones. Un agente de seguimiento escala automáticamente el día 7, envía una alerta final el día 12 y deriva al equipo legal el día 14.
El cumplimiento fiscal para NF-e enfrenta un fallo distinto: un código CFOP incorrecto bloquea las facturas de todo un mes. Cada cierre de contrato, devolución de vehículo y transferencia entre sucursales debe generar una Nota Fiscal Eletrônica válida conforme a las normas del RICMS, que varían por estado y categoría de producto (NCM). La emisión manual falla a escala.
El flujo de cumplimiento ejecuta tres agentes activados por un evento del ERP (SAP, Oracle o TOTVS). Un agente clasificador fiscal basado en RAG utiliza Azure AI Search sobre la legislación del RICMS y la tabla NCM para seleccionar el CFOP, CST y tipo impositivo de ICMS correctos. Un agente emisor de NF-e llama a la API SEFAZ NF-e 4.0, gestiona reintentos, modo de contingencia y flujo de cancelación. Un agente de contabilidad ejecuta la reconciliación diaria — SPED, EFD-Contribuições, libros de entradas y salidas e informe de ICMS-ST. El cierre fiscal mensual cuenta con HITL de control dual y firma del CFO.
Ejemplos por Sector
El mismo patrón multi-agente — ingerir, clasificar, actuar, escalar — se transfiere entre industrias:
- Finanzas: Un agente de documentos lee archivos de incorporación, un agente de puntuación de riesgo cruza listas de sanciones y un agente de escalada dirige al oficial de cumplimiento con control dual en la aprobación KYC/AML.
- Salud: Un agente de extracción clínica más una capa RAG de reglas de pagadores, con HITL que involucra al médico antes del envío de la autorización previa. El tiempo de autorización cae de días a horas; todas las decisiones quedan registradas para auditoría.
- Retail: Un agente de triaje clasifica el motivo de la devolución, un agente de reembolso ejecuta la verificación de política y un agente de logística programa la recogida. HITL se aplica solo a excepciones que superen el umbral de valor del SKU.
- Manufactura: Un agente de telemetría monitorea señales de IoT, un agente de diagnóstico propone órdenes de trabajo y un agente de programación asigna técnicos. El gerente de planta aprueba cualquier orden de trabajo superior a cuatro horas.
Principios de Arquitectura
Los programas de agentes de nivel producción se construyen en seis capas, de abajo hacia arriba: Plataforma y Gobernanza (identidad, RBAC, Content Safety, auditoría, observabilidad, FinOps — los mismos controles que el resto de Azure), Modelos (catálogo de Foundry, elegidos por tarea, con fine-tuning donde se justifica), Contexto y RAG (vector store, recuperación semántica, acceso con alcance por identidad), Herramientas y MCP (servidores MCP y plugins catalogados, versionados y con alcance definido), Orquestación (runtime multi-agente, planificación, reintentos, puntos de control HITL, evaluación) y Superficie (Teams, Outlook, IDE o app personalizada — donde los usuarios interactúan con el agente).
Cinco principios rigen todo programa de agentes de IA de Microsoft:
- Empieza estrecho. Un caso de uso, un agente, un equipo. Generaliza solo después de demostrar el valor.
- Reutiliza la gobernanza de Azure. Identidad, RBAC, Content Safety, Purview — los mismos controles del resto del stack, no controles paralelos.
- Cataloga cada herramienta. Registro de servidores MCP, tokens con alcance, auditoría por llamada. Ningún agente habla con una API aleatoria.
- Evalúa antes de desplegar. Golden test set por agente, regresión en cada cambio de modelo, presupuesto de latencia por ciclo.
- Planifica la retirada. Versiona cada prompt, registra cada cambio, mantén el rollback — los agentes derivan igual que los modelos.
Hoja de Ruta de Implementación
El camino desde el primer piloto hasta una flota de agentes de nivel producción recorre cinco fases en doce meses:
Fase 1 — Descubrir (Mes 1): Mapear casos de uso por valor y esfuerzo, obtener aprobación de los stakeholders, seleccionar el candidato al piloto.
Fase 2 — Piloto (Meses 2–3): Desplegar un agente con un equipo. Ejecutar una evaluación en ciclo cerrado antes de cualquier acceso más amplio.
Fase 3 — Endurecer (Meses 4–6): Implementar RBAC y registros de auditoría, establecer objetivos de SLA y topes de coste, conectar puntos de control HITL en cada acción relevante.
Fase 4 — Escalar (Meses 7–9): Construir el registro de herramientas, introducir orquestación multi-agente, abrir incorporación self-service para nuevos equipos.
Fase 5 — Operar (Meses 10–12+): Establecer FinOps y monitoreo de drift, realizar simulacros de cambio de modelo, conducir revisiones trimestrales contra los objetivos de valor originales.
Cada fase tiene criterios de salida explícitos. Pilotar sin endurecer produce una demo. Escalar sin operar produce deuda.
Start with the platform, not the agents. Comece pela plataforma, não pelos agentes. Comience por la plataforma, no por los agentes.
Building the future of software development with AI and Agentic DevOps.