--- title: Custos de IA explicados: por que tokens custam dinheiro e como fazer orçamento description: Guia prático de preços de IA para usuários de negócios. Como os custos de API funcionam, quanto os tokens realmente custam e estratégias para extrair mais valor sem estourar o orçamento. date: February 5, 2026 author: Robert Soares category: ai-fundamentals --- A primeira vez que você vê uma fatura de API de IA, ela parece errada. Centavos por requisição. Frações de centavo por token. Você pensa: isso é praticamente de graça. Aí você coloca em produção e vê a fatura do cartão caminhar para quatro dígitos em uma semana, e de repente a economia fica bem diferente. O modelo de preços é simples quando você entende, mas a maioria das pessoas aprende levando um susto primeiro — e esse é um jeito caro de aprender qualquer coisa. ## O que você está pagando de verdade Toda vez que você envia um prompt para um modelo de IA, milhares de GPUs entram em ação. Bilhões de cálculos acontecem. Só a conta de energia para rodar inferência em escala é absurda. Você não está pagando pelo treinamento que já aconteceu. Você está pagando pela computação que acontece agora, toda vez que você faz uma requisição. Os três principais jeitos de pagar se dividem assim: **Assinaturas** ficam entre $20 e $200 por mês para acesso a uma interface de chat com limites de uso embutidos. ChatGPT Plus, Claude Pro, Gemini Advanced. Simples. Previsível. Limitado. **Preço de API** significa pagar por token, que é a unidade de medida do texto que entra e sai do modelo. Cada palavra custa dinheiro. Cada resposta custa mais. Custos variáveis, mas controle total da integração. **Contratos corporativos** envolvem negociação personalizada para grandes organizações, com descontos por volume, acordos de nível de serviço e suporte dedicado embutidos em compromissos de vários anos. Para quem está construindo algo além de um chat casual, preço de API é o jogo. ## Tokens são estranhos Um token tem, mais ou menos, de 3 a 4 caracteres. Em média, cerca de 75% de uma palavra. "Hello" é um token. "Anthropomorphic" são quatro. Por que não cobrar por palavra? Porque os modelos não “enxergam” palavras. Eles enxergam tokens, que são as unidades reais de computação por baixo do capô. Um documento de 1.000 palavras dá algo como 1.333 tokens. Uma conversa típica de ida e volta com uma IA pode usar de 2.000 a 5.000 tokens somando suas perguntas e as respostas. Os preços são cotados por milhão de tokens. Quando você vê "$2,50 per 1M input tokens", isso vira: - 1.000 tokens custam um quarto de centavo - 10.000 tokens custam 2,5 centavos - 100.000 tokens custam 25 centavos Esses números parecem ridículos até você multiplicar por volumes reais — e aí eles deixam de parecer ridículos bem rápido. ## Saída custa mais do que entrada É aqui que o modelo mental da maioria das pessoas quebra. [Tokens de saída custam de 3 a 10 vezes mais do que tokens de entrada](https://intuitionlabs.ai/articles/llm-api-pricing-comparison-2025) em praticamente todo provedor. O modelo trabalha mais para gerar texto novo do que para ler texto existente. Ler é relativamente barato. Escrever é caro em termos de computação. No GPT-4o, a entrada fica em torno de $2,50 por milhão de tokens enquanto a saída fica em $10 por milhão. O Claude Sonnet cobra $3 de entrada e $15 de saída. O padrão se repete em todo lugar. Isso significa que um prompt com 500 tokens de entrada e 500 tokens de saída não custa o mesmo que 1.000 tokens a uma taxa “média” qualquer. A saída domina. Nesse exemplo, a saída custa quatro vezes mais do que a entrada apesar de ter a mesma contagem de tokens. A implicação para otimizar custo é clara: controlar o tamanho da saída importa mais do que enxugar seus prompts. ## A variação de preços é enorme Os preços atuais para 2026 vão de frações de centavo a dezenas de dólares por milhão de tokens, e o modelo que você escolhe define em qual ponta desse espectro você vai cair. A faixa mais barata dá conta da maioria das tarefas numa boa. [O Gemini 2.5 Flash custa $0,15 de entrada e $0,60 de saída por milhão de tokens](https://intuitionlabs.ai/articles/llm-api-pricing-comparison-2025). O Claude Haiku fica em $1 de entrada e $5 de saída. Esses modelos resolvem 70% a 80% dos casos de uso típicos de negócios. A faixa intermediária entrega uma qualidade visivelmente melhor por 10 a 20 vezes o custo. Claude Sonnet a $3 de entrada e $15 de saída. GPT-4o em taxas parecidas. O salto de capacidade justifica o premium para tarefas que exigem nuance ou raciocínio complexo. Modelos premium cobram caro. O Claude Opus fica em $5 de entrada e $25 de saída na versão mais recente. Alguns modelos focados em raciocínio, como a série o1 da OpenAI, cobram $15 de entrada e $60 de saída. Eles existem para tarefas em que qualidade vale mais do que qualquer outra coisa. E aí tem a DeepSeek, que [oferece $0,28 de entrada e $0,42 de saída](https://intuitionlabs.ai/articles/llm-api-pricing-comparison-2025) com capacidade competitiva. O porém é que é um modelo desenvolvido na China, o que pesa em alguns casos de uso corporativos envolvendo conformidade ou requisitos de residência de dados. A mesma carga de trabalho pode custar $17 por mês ou $500 por mês dependendo puramente da escolha do modelo. ## Como desenvolvedores sentem isso na prática A comunidade de desenvolvimento tem muito a dizer sobre a curva de aprendizado. Um desenvolvedor construindo uma ferramenta de análise de feedback [descreveu o choque de realidade](https://dev.to/jrmromao/is-your-openai-bill-giving-you-nightmares-i-built-a-tool-to-help-4pnn): "I noticed how quickly the costs can spiral out of control. A simple task routed to GPT-4 by mistake, an inefficient prompt, or running the same query over and over—it all adds up." Essa experiência é comum. A distância entre “parece barato” e “pera, a minha fatura é quanto?” pode sumir rápido. Outro desenvolvedor [compartilhou a jornada de corte de custos](https://news.ycombinator.com/item?id=46760285) depois de ver uma conta mensal de $70: "Dropped Claude Sonnet entirely—tested both models on the same data, Haiku actually performed better at a third of the cost." Ele baixou os custos mensais para centavos filtrando requisições irrelevantes antes mesmo de bater na API e encurtando saídas para abreviações quando palavras completas não eram necessárias. A escolha do modelo aparece repetidamente como a maior alavanca. [Um comentarista no Hacker News observou](https://news.ycombinator.com/item?id=41638068): "Gemini performs similar to the GPT models, and with the cost difference there is little reason to choose OpenAI" para o caso de uso de automação residencial dele. O padrão nesses relatos é consistente: a maioria dos projetos começa “superdimensionando” a capacidade do modelo e só depois otimiza para baixo quando as contas chegam. ## As pegadinhas escondidas da cobrança Algumas coisas pegam as pessoas de surpresa além da matemática crua de tokens. Limites de gasto nem sempre funcionam. Usuários no [fórum de desenvolvedores da OpenAI relataram cobranças de $300 a $1.000 acima dos limites rígidos](https://community.openai.com/t/api-charged-1000-above-spending-hard-limit/722967), e um deles resumiu assim: "I spent way more than expected. I knew it could happen, but I relied on the organization spending limit." Tokens de raciocínio são uma categoria de custo mais nova que derruba muita gente. Modelos com capacidades de “pensar”, como as séries o da OpenAI, geram tokens internos de raciocínio que entram na conta como saída, mas nunca aparecem na resposta visível. Um problema de matemática complexo pode usar 87.000 tokens de raciocínio para produzir 500 palavras de saída visível — e você paga por tudo. O custo extra da janela de contexto é invisível, mas caro. Toda chamada de API inclui seu prompt de sistema, qualquer histórico de conversa e quaisquer documentos que você esteja fornecendo. Numa conversa longa ou numa configuração de geração aumentada por recuperação, esse custo pode representar 50% ou mais do seu uso de tokens antes mesmo de você fazer a pergunta de verdade. ## Tornando os custos previsíveis As organizações que lidam bem com custos de IA compartilham práticas em comum. Primeiro: começam com modelos mais baratos e só sobem quando a diferença de qualidade é demonstrável. A maioria das tarefas não precisa do modelo caro. O modelo caro é para quando o modelo barato falha — não para quando você não tem certeza de qual escolher. Segundo: medem obsessivamente. Como um desenvolvedor colocou: você não consegue otimizar o que não mede. Ferramentas como Helicone, LangSmith e painéis nativos dos provedores ajudam a atribuir custos a funcionalidades, usuários ou fluxos específicos. Terceiro: controlam o tamanho da saída de forma agressiva. Como tokens de saída dominam os custos, pedir respostas mais curtas tem um impacto desproporcional. "A/M/B" em vez de "alto/médio/baixo" parece detalhe até você multiplicar por milhões de classificações. Quarto: colocam cache nas respostas para consultas repetidas. Se 20% das consultas representam 80% do volume e essas consultas têm respostas estáveis, o cache se paga imediatamente. Quinto: usam processamento em lote quando a latência permite. A batch API da OpenAI oferece 50% de desconto em requisições processadas de forma assíncrona em até 24 horas. Se você não precisa de resposta imediata, você não precisa pagar preço de imediatismo. ## O que é um gasto razoável? Números aproximados para diferentes fases de um projeto, lembrando que os custos reais variam muito por caso de uso: Um protótipo consumindo $100 a $500 por mês está testando ideias e provando conceitos, provavelmente usando modelos mais baratos com alguma checagem manual de qualidade. Um piloto em produção rodando $500 a $2.000 por mês atende uma base limitada de usuários com cargas reais, ajustando os modelos com base no que o protótipo aprendeu. Produção completa, de $2.000 a $10.000+ por mês, escala para volume real de usuários com otimização ativa baseada nos padrões observados de uso. Essas faixas podem mudar drasticamente dependendo da sua aplicação. Um chatbot simples pode custar $50 por mês. Um pipeline de processamento de documentos lidando com milhões de páginas pode custar $50.000. ## A tendência está do seu lado Os preços continuam caindo. Rápido. [Uma capacidade que custava $30 a $60 por milhão de tokens em 2023 hoje custa $2 a $10](https://intuitionlabs.ai/articles/llm-api-pricing-comparison-2025). A concorrência do Google, da Anthropic e de provedores open source continua empurrando as taxas para baixo. A queda de preços, na verdade, acelerou no último ano. Isso traz algumas implicações que valem considerar. Projetos que não se pagavam 12 meses atrás talvez façam sentido hoje com as taxas atuais. O que você construir agora vai ficar mais barato de operar ao longo do tempo, mesmo que você não mude nada. Fechar compromissos de preço de longo prazo nas taxas de hoje talvez não faça sentido quando as taxas do ano que vem podem ser substancialmente menores. ## O que isso significa para você O modelo de preços em si é simples: tokens entram, tokens saem, saída custa mais do que entrada, modelos diferentes custam valores diferentes. Todo o resto é detalhe de otimização. A parte difícil não é entender a cobrança. A parte difícil é criar disciplina para medir o que você está gastando, testar se modelos mais baratos servem para o seu caso de uso e evitar o erro fácil de ir no caro por padrão porque parece mais seguro. A maioria dos projetos está pagando por capacidade que não precisa. A maioria dos problemas de custo vem mais da escolha do modelo e da verbosidade da saída do que de qualquer coisa “sofisticada”. Quem administra bem esses custos faz coisas chatas com consistência: mede, testa opções mais baratas, limita o tamanho da saída, usa cache para consultas repetidas. Quanto a sua carga de trabalho atual de IA custaria em 10x o volume? Em 100x? O modelo que você usa é realmente necessário, ou é só o que você começou usando? Quanto do seu orçamento de tokens vai para o custo de contexto versus o trabalho útil de verdade? As respostas para essas perguntas importam mais do que as tabelas de preços.