Prompt, histórico, arquivos e instruções. É a base que o contexto e o caché atacam.
Sob Usage-Based Billing, o custo depende de apenas dois fatores: qual modelo e quantos tokens. Esta é a referência das sete alavancas de otimização, a base de evidência por trás de cada banda, e a ordem de adoção que carrega a maior parte do resultado.
Sob Usage-Based Billing, o consumo é medido em AI Credits, onde 1 AI Credit equivale a US$ 0,01. O custo de cada interação depende de dois fatores, e só dois: qual modelo e quantos tokens.
Prompt, histórico, arquivos e instruções. É a base que o contexto e o caché atacam.
O que o modelo gera, tipicamente 4 a 5x o preço da entrada por token. A classe mais cara, o primeiro alvo.
Contexto reutilizado, a 10 a 50% de um token novo: Anthropic 0,1x, OpenAI 50% automático sobre prefixo de 1.024 tokens.
Code completions e Next Edit Suggestions seguem incluídos no plano e não consomem AI Credits. Otimizar completions é esforço perdido.
Vive no chat e nas tarefas agênticas. É ali que cada alavanda deste deck atua.
Cada alavanca age sobre uma base de tokens distinta: o output control sobre a saída, contexto e caché sobre a entrada, o routing sobre toda a conta. Por isso somar 70% + 80% + 50% e prometer 200% é erro de aritmética.
Bandas direcionais, a confirmar contra a sua linha de base. O número que vale é o seu, medido.
O Usage-Based Billing entrou em GA. Antes, premium requests com multiplicadores. Agora, AI Credits ligados a tokens. Agentes deixaram de ser feature e passaram a ser compute.
Planos mensais migraram automaticamente em 2026-06-01. Planos anuais seguem no modelo de premium requests até renovar, mas com multiplicadores mais altos para modelos de fronteira. A regra mental: autocomplete ainda é feature; agente é compute.
Max: só por upgrade, para quem já tem plano GitHub Copilot. Business e Enterprise: créditos por usuário, agrupados na entidade. Promoção até 2026-09-01: Business 3.000, Enterprise 7.000.
Migrou automaticamente em 2026-06-01 para AI Credits. Nada a fazer.
Segue no premium request até renovar, com os multiplicadores de fronteira que subiram em 2026-06-01:
Cada plano inclui base credits, fixos e iguais ao preço, mais um flex allotment variável que o GitHub ajusta conforme a economia dos modelos. 1 AI Credit = US$ 0,01. Quando o pool acaba, o uso continua a preço por crédito, sujeito a budget, ou é bloqueado até o próximo ciclo.
Cada banda tem fonte declarada. Três tipos: preço oficial dos provedores (o mais duro), pesquisa publicada e revisada, e estimativas direcionais de campo, sempre rotuladas como tais.
Fontes primárias: FrugalGPT, LLMLingua, RouterBench, prompt caching de Anthropic e OpenAI (docs oficiais), GitHub AI model comparison.
Sete alavancas em quatro camadas. Leia de cima para baixo, que é também a ordem de adoção. A camada de Saída é onde vive o desperdício mais caro; Governança é o que torna o ganho permanente.
Dev e admin: Saída e Entrada são do desenvolvedor. Conta é compartilhada, o picker do dev e a política do admin. Governança é do admin.
Passos 3 e 4 são as duas maiores alavancas: a saída custa ~5x a entrada por token, e o preço entre classes de modelo abrange duas ordens de magnitude. Faça ambos antes de qualquer refinamento.
.github/ ├── copilot-instructions.md # sempre ativo ├── instructions/ │ └── tests.instructions.md # applyTo (glob) ├── agents/ │ └── cost-aware-reviewer.agent.md └── prompts/ └── release-notes.prompt.md
O primeiro e mais importante. Contexto geral injetado em cada pedido. Conciso, de alto sinal.
Regras com alcance via campo applyTo (glob). Cura o contexto por área do código.
Um agente, uma tarefa, com modelo e ferramentas restritos. Governança de alcance e modelo num arquivo.
Encapsula uma instrução longa num comando versionado. Mata o prompt mágico memorizado.
No VS Code, gere os arquivos com /create-instruction, /create-agent, /create-prompt, /create-hook. Um primitivo é código: revise por PR.
O ULB para a fatura no nível do orçamento. Os hooks param o desperdício um nível antes: na ação do agente. Um hook PreToolUse pode bloquear uma chamada de ferramenta perigosa ou redundante; um hook Stop encerra um loop antes que ele queime o pool. São gerados no VS Code com /create-hook.
O loop de agente é o antipadrão que mais queima crédito de uma vez só. Sem freio, ele repete chamadas caras até o orçamento estourar. O hook é o seguro mais barato contra o pior caso.
No OpenTelemetry, o span execute_hook registra cada decisão com pass ou block: você audita o guard-rail em produção.
Gere por /create-hook, não copie um esquema fixo: o formato evolui com a extensão. O hook é um primitivo, entra por PR e é revisado como qualquer outro arquivo de configuração.
Hard stop por ciclo. Configure o universal acima do valor por licença (US$ 19 Business, US$ 39 Enterprise) e overrides para os usuários pesados.
Limita o gasto metered de uma unidade de negócio depois do pool. Atribui custo por unidade.
Failsafe global: limita o gasto metered total depois do pool. O último seguro da enterprise.
Acompanha o gasto de uma organização ou repositório. Visibilidade, não só corte.
Allowances desde 2026-06-01: Pro 1.500 créditos, Pro+ 7.000, GitHub Copilot Max 20.000; Business 1.900 e Enterprise 3.900 por usuário, com promoção até 2026-09-01. Use a promoção para achar a linha de base, não a leia como o regime permanente. Budgets por usuário em GA desde 2026-06-01.
R1 a R7, condensados. Cada receita aponta para a alavanca, o papel que a executa, e o gesto concreto no editor.
- Responda com código ou diff. - Sem preâmbulo, sem resumo final. - A menor mudança correta; só as linhas alteradas.
No Chat, expanda References: o arquivo de instruções deve aparecer como referência aplicada.
Model picker em Auto. Fronteira só por mudança manual, para raciocínio difícil.
Visual Studio: desligue Enhance non-chat requests with premium models. VS Code: utility model numa classe leve.
O admin define quais modelos os membros podem usar. Mudar o modelo do chat não muda o das inline suggestions.
BYOK habilitada por padrão. Registre Ollama ou Foundry Local; commits, boilerplate e tests vão para o local, a custo zero de créditos.
Prefira #file, #sym e #changes a despejar todo o #codebase. Content exclusion (admin) para paths sensíveis.
Estabilize o prefixo: instruções no topo, sem edições no meio da sessão. Agrupe o trabalho relacionado.
R6 Primitivos: ordem de adoção é instruções gerais, instruções com alcance, agentes custom, prompt files, hooks. R7 Budgets: primeiro o ULB universal, depois overrides e cost centers, e medir a cada ciclo.
O GitHub Copilot Memory, em public preview, captura fatos e preferências do seu trabalho e os reaproveita nas próximas sessões. É uma alavanca de entrada: o que a memória guarda, você não precisa mandar de novo no prompt a cada conversa. Menos entrada repetida, menos token.
Veja os fatos e preferências capturados. A memória só ajuda se refletir o projeto de verdade.
Memória desatualizada vira ruído caro: ela entra no contexto a cada pedido. Pode, remova.
O caderno do projeto.
Um bom colega anota o que importa do seu projeto uma vez, e não pergunta de novo na semana seguinte. A memória é esse caderno: mantida, ela economiza; abandonada, ela atrapalha.
A memória complementa os primitivos versionados: o copilot-instructions.md guarda a regra estável e revisada por PR; a memória guarda o que é aprendido na sessão. Os dois reduzem a entrada, por caminhos diferentes.
A diferença não é o modelo, é a higiene de sessão. O Cache Explorer, no Agent Debug Logs, mostra a taxa de acerto e quantos tokens de entrada foram reaproveitados: é ali que você confirma se a disciplina está funcionando.
O BYOK não consome AI Credits: é faturado pelo provedor, ou gratuito quando o modelo roda local. O AI Toolkit conecta o GitHub Copilot Chat a modelos do Azure AI Foundry ou ao Foundry Local na sua máquina. Quatro passos no editor.
# instalar winget install Microsoft.FoundryLocal # rodar um modelo de código foundry model run phi-4 # Ollama, alternativa ollama pull llama3.1
O agent mode exige modelos com tool calling. E hardware importa: o GPU define a performance do modelo local. BYOK não vale para completions.
BYOK está ativo por padrão em Business e Enterprise, com modelos de provedores como Anthropic, Gemini, OpenAI, OpenRouter e Azure, além de Ollama e Foundry Local. Uma vez configurado, o modelo aparece em todo o Chat, inclusive no Plan agent e nos custom agents.
O picker mostra o custo no hover: custo por tipo de token e um rótulo de tier (Baixo, Médio, Alto). Custom agents podem fixar um modelo barato por subtarefa: ao invocar como subagente, usam o próprio modelo, não o da sessão.
O conjunto mais completo: Auto, utility model, Plan agent, /compact, /fork, Configure Tools, OpenTelemetry e o Agent Debug Logs.
O premium silencioso vive aqui: Tools, Options, GitHub, GitHub Copilot, Editor. Desligue Enhance non-chat requests with premium models.
A telemetria pode ser menos consistente fora do VS Code. Mantenha o IDE na última versão para o dashboard refletir o uso real.
A política de modelo do admin vale em todos os editores, mas os gestos de fluxo (novo chat, fork, compact) e a observabilidade hoje são mais ricos no VS Code. Padronize o editor onde o programa de FinOps precisa de mais controle.
Antipadrões: sintoma, causa, solução. Os quatro problemas que aparecem antes de qualquer outro, e como diagnosticá-los.
Perigo: sem ULB, um só loop acidental pode consumir o pool da unidade. O budget por usuário é um seguro barato; configure antes do uso crescer.
Otimizar sem medir é adivinhar. Desde o VS Code 1.119, o GitHub Copilot Chat e o GitHub Copilot CLI exportam traces, métricas e eventos via OTel, com tokens, custo e cache por sessão. Desligado por padrão, zero overhead até você ligar.
invoke_agent copilot [~15s] ├─ chat gpt-4o [~3s] │ input_tokens, output_tokens │ cache_read.input_tokens ├─ execute_tool readFile [50ms] ├─ execute_tool runCommand [~2s] ├─ execute_hook PreToolUse [pass] └─ chat gpt-4o [~4s]
gen_ai.usage.input_tokens, output_tokens e cache_read.input_tokens. Você vê exatamente onde o crédito vai.
OTEL_RESOURCE_ATTRIBUTES marca team.id e department. Filtre o custo por equipe ou squad.
Todos os sinais seguem as OTel GenAI Semantic Conventions: funciona em qualquer backend OTLP.
Métricas incluem gen_ai.client.token.usage e custo por modelo. Eventos cobrem aceitação de edição, sobrevivência do código e feedback. Por padrão, nenhum conteúdo de prompt é capturado: só metadados como modelo, tokens e duração.
{
"github.copilot.chat.otel.enabled": true,
"github.copilot.chat.otel.otlpEndpoint":
"http://localhost:4318"
}
Liga os traces do agente de primeiro plano, do GitHub Copilot CLI em background e do Claude agent. O mesmo setting cobre os três.
# ligar e exportar para arquivo export COPILOT_OTEL_ENABLED=true export COPILOT_OTEL_EXPORTER_TYPE=file export COPILOT_OTEL_FILE_EXPORTER_PATH=\ ~/.copilot/otel/run.jsonl
O JSONL local alimenta ferramentas de custo da comunidade que leem ~/.copilot/otel e somam tokens por sessão.
Off por padrão, sem phone-home: os dados vão só para onde você aponta. Sem captura de conteúdo por padrão. O Grafana Managed tem um dashboard pronto para tokens de entrada e saída, sessões, tool calls e tempo de resposta por modelo.
Use o Plan agent (reasoning) para o plano, aprove, e passe para um agente rápido executar. Menos vai e volta, menos retrabalho.
Ao trocar de assunto, abra uma sessão nova. O histórico irrelevante é reprocessado a cada turno e queima tokens à toa.
Em sessão longa, resuma as partes antigas e recupere espaço de contexto. Aceita foco: /compact foque nas decisões de API.
Para explorar uma alternativa, bifurque a conversa em vez de recomeçar. Herda o contexto, sem reestabelecer tudo do zero.
Cada tool call consome contexto. Configure Tools desliga MCP servers e ferramentas que a tarefa atual não precisa.
Mais reasoning gera mais thinking tokens. O padrão adaptativo basta na maioria; suba só para problema complexo de verdade.
Inspecione com o Agent Debug Logs: o Summary mostra tokens agregados da sessão, e o Cache Explorer mostra a taxa de acerto do prompt cache e quantos tokens de entrada foram reaproveitados. Excluir build outputs via .gitignore tira lixo do índice.
Na aba Insights, janela de 28 dias. Exporte em NDJSON e CSV. Sem linha de base, toda banda é chute.
Quebre por usuário, modelo e feature. O pico costuma estar num punhado de usuários ou numa feature agêntica.
Ajuste a banda contra o dado real, não contra a expectativa. A meta é a sua curva, medida, não a do slide.
Dois níveis de medição se completam: o dashboard de Insights dá a visão de gestão, agregada e por ciclo; o OpenTelemetry dá a visão de engenharia, span a span, com tokens e cache por sessão. Um responde quanto e quem; o outro responde onde e por quê.
A experiência de preview da fatura, no Billing Overview, mostra como o custo se desloca no novo modelo antes de virar cobrança. Leia antes de o uso crescer.
Mais a medição com OTel e as alavancas nativas (plan, novo chat, /compact, /fork, desligar ferramentas, thinking effort), que reduzem tokens por sessão sem entrar na tabela de bandas. Lembre: as bandas se compõem, nunca somam.
Não é projeto, é configuração mais hábito. O custo é tempo, não licença nova.
O ganho não é um corte único, é uma inclinação. Cada alavanca dobra a curva, e a governança trava o resultado para que ele não evapore na primeira semana corrida.
A assimetria é a tese: o investimento é pequeno e único; a economia é composta e recorrente. O payback de cortar a saída e pôr o ULB chega no primeiro ciclo de fatura.
Números ilustrativos, para mostrar a mecânica da composição. As porcentagens de cada passo são exemplos dentro das bandas; o seu resultado é o que você medir contra a sua linha de base. A lição é a forma da conta, não os dígitos.
Para qualquer audiência. Cada alavanca tem uma metáfora que cabe numa frase e dispensa o jargão técnico.
A instrução converte a carta em telegrama: só o que muda. 40 a 70% da saída.
O routing escolhe o veículo pelo tamanho da carga. 40 a 70% da conta.
A rotina sai da conta num modelo local. Um dígito a ~15% do total.
Levar o arquivo morto inteiro confunde e custa. 40 a 80% da entrada.
Depois do registro, só apoie a credencial. 30 a 50% da entrada em loops.
A disciplina vira infraestrutura versionada. Composto e permanente.
Não baixa a conta de luz do mês, evita o incêndio do pico. A economia vem das outras alavancas; o cap sustenta a variância. ULB em GA desde 2026-06-01.
O custo depende de qual modelo e quantos tokens. Toda alavanca ataca um deles, ou ambos.
Saída primeiro (a classe mais cara), depois contexto, depois caché. Routing limita o raio de tudo.
Nunca somam. 20 a 30% austero, 55 a 70% maduro. Cada cifra tem fonte declarada.
Instruções, agentes, prompts e hooks versionados. Governança e economia no mesmo arquivo.
Hard stop por usuário. Configure o universal antes do uso crescer; um loop acidental queima o pool.
A banda que vale é a sua, contra a linha de base. Otimizar sem medir é adivinhar.
trivial -> classe leve / incluída padrão -> classe intermediária complexo -> fronteira, reasoning nunca -> fronteira p/ tarefa trivial
Microsoft + GitHub · Deck v2.1.0 · Atualizado em 2026-06-14