--- title: Prompts com cadeia de pensamento: dê papel de rascunho para a IA description: Adicionar 'let's think step by step' aos seus prompts pode melhorar drasticamente tarefas de raciocínio. Veja o que a pesquisa mostra, quando funciona e quando não funciona. date: February 5, 2026 author: Robert Soares category: prompt-engineering --- Em janeiro de 2022, pesquisadores do Google publicaram um artigo que mudou a forma como as pessoas falam sobre IA. Eles descobriram que acrescentar uma frase simples antes de pedir a modelos de linguagem que resolvessem problemas podia aumentar a precisão de 17,7% para 78,7% em problemas de matemática em texto. A frase? "Let's think step by step." Isso não foi mágica. Foi [chain-of-thought prompting](https://arxiv.org/abs/2201.11903), uma técnica que dá à IA algo como papel de rascunho para trabalhar nos problemas. ## A pesquisa por trás disso Jason Wei e colegas do Google Brain fizeram experimentos com três modelos grandes de linguagem. Eles testaram raciocínio aritmético, perguntas de senso comum e manipulação simbólica. O padrão se manteve em todas as categorias: quando os modelos mostravam o trabalho, acertavam mais. No [benchmark de matemática GSM8K](https://research.google/blog/language-models-perform-reasoning-via-chain-of-thought/), o modelo de 540 bilhões de parâmetros deles chegou a 58% de precisão com chain-of-thought prompting. Prompts padrão? Nem perto. Um trabalho de acompanhamento usando self-consistency empurrou isso para 74%. O resultado mais impressionante veio de Sports Understanding. O PaLM 540B chegou a 95% de precisão, superando especialistas humanos sem ajuda, que marcaram 84%. Alguns meses depois, [pesquisadores da Universidade de Tóquio e do Google](https://arxiv.org/abs/2205.11916) publicaram "Large Language Models are Zero-Shot Reasoners." Eles descobriram que você nem precisa de exemplos. Basta anexar "Let's think step by step" e a precisão no MultiArith saltou de 17,7% para 78,7%. No GSM8K, foi de 10,4% para 40,7%. Isso é um ganho de 61 pontos percentuais com uma única frase. ## Por que isso funciona? Um usuário do Hacker News chamado leobg [explicou bem a mecânica](https://news.ycombinator.com/item?id=35503044): > "I think the idea is that the LLM cannot think internally. It's output _is_ its thinking process. Especially with an auto regressive architecture like GPT, where each output token becomes part of the input. I imagine it like handing the LLM a piece of scratch paper." Isso captura algo importante. Modelos de linguagem geram um token de cada vez. Cada token vira contexto para o próximo. Quando você pede uma resposta imediata, o modelo precisa comprimir todo o raciocínio em escolher a primeira palavra certa. Mas quando você pede passos, cada conclusão intermediária vira parte da entrada para o que vem depois. Considere este problema de matemática: "Roger tem 5 bolas de tênis. Ele compra mais 2 latas de 3. Quantas bolas de tênis ele tem agora?" Resolver isso exige entender o enunciado, identificar as operações e calcular corretamente. Pedir a resposta direto força o modelo a fazer tudo isso no salto entre pergunta e número. Pedir passos permite que ele estabeleça cada peça. Roger começa com 5. Ele compra 2 latas. Cada lata tem 3 bolas. Então ele compra 6 bolas. 5 mais 6 é 11. Cada frase restringe o que vem depois. O modelo constrói até a resposta em vez de chutar. ## A pegadinha que ninguém menciona primeiro Aqui está o que os artigos hype pulam: chain-of-thought prompting só funciona com modelos grandes. A pesquisa original concluiu que isso é uma "emergent property of model scale." Abaixo de mais ou menos 100 bilhões de parâmetros, pedir raciocínio passo a passo na verdade piorava o desempenho. Modelos menores produziam o que parecia ser uma cadeia de raciocínio, mas com erros lógicos. Os passos cheios de confiança levavam a respostas erradas com mais frequência do que simplesmente perguntar direto. Se você está usando um modelo local menor, essa técnica pode sair pela culatra. Teste. Compare resultados com e sem a instrução de passo a passo. Não presuma que a pesquisa se aplica ao seu caso específico. ## Duas formas de fazer **Abordagem zero-shot**: basta adicionar a frase. Sem exemplos. > "Um taco e uma bola custam $1.10 no total. O taco custa $1 a mais do que a bola. Quanto custa a bola? Let's think step by step." Isso funciona bem mais do que você imagina. E não custa nada a mais em tamanho de prompt. **Abordagem few-shot**: primeiro, mostre ao modelo como é um bom raciocínio. > Aqui está um problema de matemática e como resolvê-lo passo a passo: > > Pergunta: Há 15 árvores no bosque. Os trabalhadores do bosque vão plantar árvores hoje. Depois que terminarem, haverá 21 árvores. Quantas árvores os trabalhadores do bosque plantaram hoje? > > Raciocínio: Começamos com 15 árvores. Terminamos com 21 árvores. A diferença é o que foi plantado. 21 menos 15 é 6. > > Resposta: 6 > > Agora resolva este do mesmo jeito: > [sua pergunta de verdade] Few-shot usa mais tokens, mas muitas vezes produz resultados melhores em tarefas complexas. Os exemplos ensinam formato e profundidade, não só a ideia geral de mostrar o trabalho. ## Tarefas que se beneficiam Chain-of-thought prompting brilha em problemas com várias etapas, onde erros se acumulam. Problemas de matemática em texto. Quebra-cabeças de lógica. Planejamento em múltiplos passos. Qualquer coisa em que você mesmo usaria papel de rascunho. A [análise da IBM](https://www.ibm.com/think/topics/chain-of-thoughts) destaca aplicações práticas: bots de atendimento ao cliente decompondo problemas, pesquisas que exigem construção de hipóteses, explicações educacionais em matemática e ciências. A técnica funciona melhor quando a tarefa realmente tem etapas intermediárias que informam a resposta final. Outro comentarista do Hacker News, travisjungroth, [fez uma observação que ficou comigo](https://news.ycombinator.com/item?id=35503044): > "Most writing about anything difficult is product, not process. Articles get drafts before being published. People think about answers before writing them down. How to Solve It does a great job explaining this about math problems. The steps to the proof are not the steps to creating the proof. So when you go to solve a problem by mimicking the solutions to problems, something is missing." Isso importa. A solução publicada de um problema de matemática não se parece em nada com o processo real de chegar nela. Modelos de linguagem treinados em respostas finais “limpas” nunca viram o trabalho bagunçado que levou até lá. Pedir passos recria algo que estava ausente no treinamento. ## Tarefas que não se beneficiam Consultas simples não ganham nada. Perguntar "Qual é a capital da França?" com instruções passo a passo só produz uma saída maior, sem melhora de precisão. O modelo já tem essa resposta pronta. Tarefas que exigem criatividade, em vez de raciocínio, melhoram menos. Escrever poesia, gerar texto publicitário, fazer brainstorming de nomes. Essas coisas não têm passos lógicos para mostrar. Forçar tudo a caber num esquema de raciocínio fica esquisito e pode restringir a saída sem necessidade. [Pesquisa recente](https://bdtechtalks.com/2024/05/13/chain-of-thought-planning/) descobriu que os benefícios não se generalizam tão amplamente quanto o hype inicial sugeria. Prompts de CoT melhoram modelos em tarefas específicas de planejamento, mas não transferem bem entre domínios. As melhorias são reais, mas mais estreitas do que às vezes se diz. Também não há garantia de que o raciocínio seja fiel. O modelo pode produzir passos plausíveis que não refletem de fato como ele chegou à resposta. Isso cria um risco de falsa confiança. Você vê uma cadeia lógica e presume correção, mas os passos podem ser racionalização pós-hoc, não raciocínio genuíno. ## O custo computacional importa Mais tokens significam mais tempo e mais dinheiro. Se você está usando uma API, respostas com chain-of-thought custam mais do que respostas diretas. Em aplicações de alto volume, isso cresce rápido. Pense se o ganho de precisão justifica o custo. Um bot de atendimento respondendo a FAQs simples provavelmente não precisa de cadeias de raciocínio. Um sistema fazendo cálculos financeiros provavelmente precisa. ## Colocando em prática Para problemas de matemática e lógica, comece com zero-shot. Acrescente "Let's think step by step" ou "Work through this step by step" ao seu prompt. Compare os resultados com sua linha de base. Para tarefas complexas e de vários passos, considere exemplos few-shot mostrando a profundidade de raciocínio que você quer. Um ou dois bons exemplos muitas vezes vencem zero-shot puro em problemas mais difíceis. Para qualquer coisa que envolva planejamento, tente separar a tarefa em fases explícitas. Peça o plano primeiro e depois a execução. Isso é chain-of-thought aplicado no nível da tarefa, não no nível de frase. Se precisão importa mais do que velocidade, adicione uma etapa de verificação. Depois que o modelo chegar a uma resposta, peça para ele checar o trabalho. Isso pega alguns erros que passam no raciocínio inicial. Aqui vai um exemplo que mostra a diferença na prática: **Sem chain-of-thought:** > "A receita de uma empresa cresceu 20% no 1º trimestre e depois caiu 15% no 2º trimestre. Qual foi a variação líquida?" > > Modelo: "5% de crescimento" Essa resposta está errada. O modelo multiplicou, em vez de calcular percentuais compostos. **Com chain-of-thought:** > "A receita de uma empresa cresceu 20% no 1º trimestre e depois caiu 15% no 2º trimestre. Qual foi a variação líquida? Let's work through this step by step." > > Modelo: "Começando com 100 como base. Depois de 20% de crescimento: 100 x 1.20 = 120. Depois de uma queda de 15% a partir desse novo valor: 120 x 0.85 = 102. Variação líquida: 102 - 100 = 2, o que é 2% de crescimento." O raciocínio forçado impede o erro do atalho. O modelo não consegue pular para "20 menos 15" porque precisa passar pelo cálculo real. ## Variações que vale conhecer A técnica básica gerou várias extensões. **Self-consistency** gera vários caminhos de raciocínio e pega a resposta da maioria. Se você pedir ao modelo para resolver um problema cinco vezes com chain-of-thought, e ele der a mesma resposta quatro vezes, essa resposta provavelmente está certa. Essa abordagem elevou a precisão no GSM8K de 58% para 74% no trabalho de acompanhamento do Google. **Tree of Thoughts** explora vários ramos de raciocínio ao mesmo tempo, em vez de se comprometer com um caminho só. É útil quando existem abordagens genuinamente diferentes para um problema e você quer explorar algumas antes de escolher. **Least-to-Most prompting** quebra problemas complexos em subproblemas, resolve os mais simples primeiro e usa essas soluções para atacar as partes mais difíceis. Bom para problemas com hierarquias ou dependências naturais. Essas variações adicionam complexidade. Domine a versão básica primeiro. A maioria das pessoas já obtém muito valor só adicionando "let's think step by step" e nunca precisa das versões mais elaboradas. ## O panorama maior Chain-of-thought prompting funciona porque explora como esses modelos realmente funcionam. Eles são previsores do próximo token. Cada palavra restringe a probabilidade do que vem depois. Pedir raciocínio cria restrições úteis que se acumulam até respostas corretas. Isso pode ficar obsoleto. Modelos treinados especificamente para raciocinar, como aqueles com modos de "thinking" embutidos, podem internalizar esses padrões. O prompt explícito pode deixar de ser necessário conforme o comportamento vira parte dos pesos. Mas, por enquanto, com os modelos atuais, a técnica continua valiosa. Ela custa uma frase e pode multiplicar a precisão nas tarefas certas. A chave é saber quais tarefas são essas. Como você saberia se o raciocínio que um modelo te mostra é o raciocínio que ele realmente usou?