Claude Code: Como um Desenvolvedor Reduziu Custos em 84% Otimizando o Uso de Tokens com uma Skill Inovadora

Cafe Codificado

3 dias atrás

Otimização de Tokens no Claude Code: Uma Revolução no Desenvolvimento

A gestão de tokens em modelos de inteligência artificial como o Claude Code é um desafio constante para desenvolvedores. O consumo excessivo pode elevar os custos e diminuir a eficiência, um problema que Anderson Lima, desenvolvedor, enfrentou em seu projeto React Native. Ele detalha em seu blog como implementou uma solução engenhosa para reduzir drasticamente o gasto de tokens, alcançando uma economia de 84%.

A chave para essa otimização foi a criação de uma skill personalizada, batizada de “Smart Dispatch”, que direciona as tarefas para o modelo de IA mais adequado, considerando a complexidade de cada demanda. Essa abordagem não apenas economiza recursos, mas também acelera o processo de desenvolvimento.

A metodologia aplicada envolveu uma auditoria minuciosa dos arquivos de contexto carregados automaticamente pelo Claude Code, a compactação de informações redundantes e a unificação de chamadas desnecessárias. Conforme informação divulgada pelo blog lemon.dev.br, essa estratégia resultou em uma significativa redução no volume de tokens processados a cada sessão, tornando o uso da IA mais sustentável e eficiente. A seguir, exploramos os passos detalhados dessa inovação.

O Problema dos Tokens “Queimando em Silêncio”

Ao iniciar uma sessão no Claude Code, diversos arquivos de contexto são carregados automaticamente, como CLAUDE.md, AGENTS.md, hooks e skills. O que muitos não percebem é que esses arquivos consomem tokens desde o primeiro momento, antes mesmo de qualquer interação do usuário. No projeto em questão, um app React Native com arquitetura Clean Architecture, a situação era crítica: cerca de 830+ linhas de contexto automático eram carregadas por sessão, muitas delas duplicadas.

O arquivo AGENTS.md, com suas 713 linhas, era apontado como o principal vilão, e os hooks, que rodavam em cada mensagem e escrita, multiplicavam chamadas desnecessárias. O MEMORY.md, com 70 linhas, também apresentava redundância com o CLAUDE.md, agravando o consumo de tokens sem agregar valor significativo.

Passo 1: Auditoria e Compactação do Contexto

O primeiro passo crucial foi entender exatamente o que estava sendo carregado. A regra de ouro estabelecida foi que a memória só deve conter informações exclusivas, que não existam em nenhum outro arquivo de contexto. O MEMORY.md foi compactado de 70 para 22 linhas, removendo dados já presentes no CLAUDE.md e mantendo apenas informações únicas, como valores hexadecimais de um tema e erros pré-existentes.

Passo 2: Unificação Inteligente dos Hooks

Os hooks representavam um custo oculto significativo, pois cada escrita disparava múltiplas chamadas de API. Originalmente, eram 5 hooks, mas foram unificados em um único hook. Isso reduziu as chamadas extras de até quatro por turno para no máximo uma, e somente quando um arquivo era efetivamente escrito. Hooks desnecessários, como o SessionStart, que já era coberto pelo CLAUDE.md, e o UserPromptSubmit de commit, que rodava em todas as mensagens para um caso raro, foram removidos.

Passo 3: Eliminação da Duplicação entre AGENTS.md e CLAUDE.md

O maior impacto na redução de tokens veio da eliminação da duplicação entre AGENTS.md e CLAUDE.md. Cerca de 80% do conteúdo de AGENTS.md era redundante. A solução envolveu manter o CLAUDE.md raiz conciso e mover o conteúdo único para o arquivo .claude/CLAUDE.md. Essa ação reduziu o total de linhas carregadas de 830 para aproximadamente 135, uma economia de cerca de 84%.

Passo 4: A Revolução do Smart Dispatch

A “cereja do bolo” foi a criação da skill global “Smart Dispatch”. Essa habilidade roteia automaticamente as tarefas para o modelo de Claude Code mais adequado: Opus para arquitetura e decisões complexas, Sonnet para implementação de lógica de negócio e Haiku para tarefas mecânicas como estilos, testes e i18n. A skill, hospedada em ~/.claude/skills/, funciona em qualquer projeto.

Um exemplo prático é a implementação de uma feature: o Opus planeja a arquitetura, Sonnet implementa as camadas de domínio e dados, e Haiku gera os arquivos de estilo e testes. Essa estratégia garante que cada subtarefa utilize o modelo com o melhor custo-benefício, sem intervenção manual.

As lições aprendidas reforçam a importância de auditar regularmente os arquivos de contexto, entender que hooks de prompt são chamadas de API, não colocar tarefas raras em gatilhos frequentes, usar skills para conteúdo detalhado e, crucialmente, alocar o modelo certo para a tarefa certa. A reprodução dessa metodologia em outros projetos é encorajada, utilizando os cinco comandos mentais propostos: Auditar, Compactar, Unificar, Eliminar Duplicação e Criar Smart Dispatch.

Cafe Codificado

Café Codificado é um portal dinâmico e confiável criado especialmente para desenvolvedores. Nosso foco é entregar:

Dicas práticas para programação, produtividade, frameworks, testes, DevOps e muito mais;

Notícias atualizadas, acompanhando tendências e lançamentos do mundo da tecnologia, compiladas com relevância e sem jargões desnecessários.

O que você encontra aqui:

Artigos objetivos e comandáveis — Tutoriais, tutoriais passo-a-passo e dicas que vão direto ao ponto.

Cobertura das tecnologias que estão em alta — do universo da IA, computação em nuvem e segurança à engenharia de software e criatividade em código.

Conteúdo para todos os níveis — de iniciantes buscando praticidade, a profissionais em busca de insights estratégicos e aperfeiçoamento.

Comunidade ativa — textos humanizados, perguntinhas instigantes e espaço para você contribuir com reflexões e comentários.