--- title: Quando você deve dar exemplos para a IA? Prompting zero-shot vs few-shot description: O guia prático para saber quando exemplos ajudam nos seus prompts de IA e quando só queimam tokens. Com base em pesquisas reais e experiências reais de usuários. date: February 5, 2026 author: Robert Soares category: prompt-engineering --- Você tem uma tarefa para uma IA. Você só pede, ou mostra primeiro o que quer? Essa é a pergunta de zero-shot vs few-shot. Zero-shot é pedir diretamente, sem exemplos. Few-shot é dar um ou mais exemplos antes do pedido real. Os nomes vêm da pesquisa em aprendizado de máquina, mas o conceito é simples: mostrar vs dizer. A maioria das pessoas nunca usa exemplos ou usa exemplos para tudo. As duas coisas estão erradas. A resposta depende do que você está pedindo, de qual modelo está usando e se o formato importa mais que o conteúdo. ## Abordagem de exemplos primeiro Few-shot prompting funciona por reconhecimento de padrões. Você mostra para a IA como é uma boa saída, e ela espelha esse padrão na sua nova entrada. Isso é especialmente poderoso quando você precisa de um formato, tom ou estrutura específicos que são difíceis de descrever em palavras. Digamos que você precise de descrições de produtos para um site de e-commerce. Você pode explicar que quer descrições curtas, diretas e com os recursos principais em uma ordem específica. Ou pode simplesmente mostrar uma: > **Caneca térmica de cerâmica** > Mantém o café quente por 4 horas. Cabe em porta-copos padrão. Pode ir à lava-louças. Disponível em 6 cores. Depois peça uma descrição de uma garrafa de água de aço inoxidável. A IA agora tem um modelo. Ela reproduz o tamanho, a estrutura das frases, o nível de detalhe. Sem ambiguidade sobre o que você está procurando. Um comentarista no [Hacker News](https://news.ycombinator.com/item?id=38244769) resumiu bem: "In general, showing an example of correct output (one shot prompting) can greatly improve output format consistency." Esse é o benefício central. Consistência. Quando você precisa que a IA gere várias saídas no mesmo formato, exemplos vencem instruções quase sempre. ## Quando exemplos mudam tudo Os ganhos com few-shot prompting podem ser dramáticos. Em [um estudo de caso de codificação médica](https://www.lennysnewsletter.com/p/ai-prompt-engineering-in-2025-sander-schulhoff), adicionar pares exemplo-rótulo aos prompts melhorou a precisão de 0% para 90%. Não é erro de digitação. O mesmo modelo saiu de completamente errado para quase perfeito só por ver alguns exemplos antes. Mas esse é um cenário ideal. Pesquisas reunidas pelo [PromptHub](https://www.prompthub.us/blog/the-few-shot-prompting-guide) mostram retornos decrescentes depois de cerca de dois a três exemplos. Você vê ganhos grandes nos primeiros, depois vem um platô. Colocar dez exemplos em vez de três raramente ajuda e pode até atrapalhar, deixando o prompt mais poluído. Um estudo da University of London sobre correção automática de bugs encontrou algo contraintuitivo: o framework MANIPLE alcançou melhoria de 17% em correções bem-sucedidas ao otimizar quais exemplos incluir, mas adicionar mais exemplos às vezes piorava o desempenho. O prompt ficava mais barulhento, não mais inteligente. ## O caso surpreendente contra exemplos Aqui a coisa fica interessante. As regras estão mudando com os modelos de raciocínio mais novos. A série o1 da OpenAI e modelos semelhantes focados em raciocínio de fato têm desempenho pior com exemplos em muitos casos. [Pesquisas citadas pelo PromptHub](https://www.prompthub.us/blog/the-few-shot-prompting-guide) mostraram que prompting 5-shot reduziu o desempenho do o1-preview em comparação com um baseline de prompt mínimo. A documentação do DeepSeek-R1 afirma explicitamente que few-shot prompting "consistently degrades its performance." Por quê? Esses modelos são projetados para raciocinar sobre os problemas por conta própria. Dar exemplos pode limitar o raciocínio ou empurrar o modelo para o caminho errado. Eles funcionam melhor quando você descreve o que quer e deixa que descubram como chegar lá. Isso importa porque o campo está migrando para modelos de raciocínio. Se você está usando o1, o3-mini ou similares, tente primeiro sem exemplos. Adicione apenas se o formato da saída precisar de correção. ## O problema modelo a modelo Tem mais uma camada. Os melhores exemplos para um modelo podem não ser os melhores para outro. [Aickin, fundador da Libretto](https://news.ycombinator.com/item?id=40227928), fez experimentos para testar se os exemplos com melhor desempenho em um modelo também seriam os melhores em outro. A conclusão foi clara: "Most of the time, the answer was no, even between different versions of the same model." A implicação prática é dura. Você provavelmente precisa otimizar exemplos para cada modelo e refazer esse trabalho sempre que uma nova versão for lançada. Aqueles três exemplos perfeitos que você criou para GPT-4 talvez não se transfiram para GPT-4o ou Claude 3.5. Para a maioria das pessoas, isso significa manter exemplos simples e não exagerar na otimização. Quanto mais específicos forem os exemplos, maior a chance de quebrarem quando você trocar de modelo ou quando o modelo for atualizado. ## Mostrar vs dizer: quando cada um funciona Esqueça regras rígidas. Pense no que você realmente está tentando alcançar. **Exemplos funcionam melhor quando:** Formato é tudo. Se você precisa de JSON, tabelas em markdown ou um modelo específico preenchido, um exemplo costuma vencer parágrafos de instrução. A IA vê a estrutura e replica. Estilo é difícil de descrever. "Escreva com a voz da nossa marca" é vago. Mostrar três frases na voz da sua marca é concreto. É mais fácil reproduzir o padrão do que a descrição. Você está fazendo tarefas repetitivas. Precisa de vinte descrições de produto? Dê dois exemplos e receba mais dezoito no mesmo formato. A consistência se multiplica. O modelo é um LLM padrão como GPT-4 ou Claude. Esses modelos são treinados para seguir padrões. Eles respondem bem a abordagens de mostrar-em-vez-de-dizer. **Pule exemplos quando:** A tarefa exige raciocínio. Problemas de matemática, quebra-cabeças lógicos, depuração de código, análise estratégica. Nesses casos, explique o que você quer e deixe o modelo pensar. Adicionar exemplos pode limitar a abordagem ou introduzir erros vindos da solução específica do seu exemplo. Você está usando um modelo de raciocínio. o1, o3-mini, DeepSeek-R1. Esses modelos geram internamente sua própria cadeia de pensamento. Exemplos podem interferir nesse processo. A tarefa é direta. "Resuma este artigo em três frases" não precisa de exemplo. A instrução já é clara o bastante. Adicionar exemplos só queima tokens sem melhorar a saída. Você quer criatividade, não consistência. Se você quer que a IA surpreenda, exemplos limitam o espaço de saídas possíveis. Você está mostrando o que é permitido em vez do que é possível. ## O teste do mundo real Teoria é boa. Prática é melhor. Rode um experimento simples antes de se comprometer com uma abordagem. Pegue sua tarefa, rode três vezes em zero-shot e três vezes com dois exemplos. Compare as saídas. Os exemplos melhoraram a qualidade? Melhoraram a consistência? Mudaram alguma coisa? Muitas vezes a resposta é: "Os exemplos ajudaram no formato, mas não na qualidade do conteúdo." Essa é uma informação útil. Ela mostra quando vale investir em exemplos e quando vale investir em instruções melhores. Alguns profissionais descobrem que o ponto ideal é um exemplo para formato mais instruções detalhadas para todo o resto. Você ganha consistência estrutural com o exemplo e deixa as instruções guiarem a substância. ## O cálculo de custo Exemplos não são de graça. Cada exemplo que você adiciona custa tokens em toda chamada de API. Com Claude Haiku ou GPT-4o-mini, o custo é quase nulo. Com GPT-4 ou Claude Opus, isso acumula. A conta muda conforme o volume. Se você vai rodar um prompt uma vez, adicione quantos exemplos quiser. Se vai rodar milhares de vezes por dia, cada token importa. [Minimaxir observou no Hacker News](https://news.ycombinator.com/item?id=39809825) que a economia favorece few-shot prompting mais do que nunca: "You will often get better results with few-shot prompting (with good examples) on a modern LLM than with a finetuned LLM." Tokens de entrada ficaram baratos, especialmente com modelos como Claude Haiku. O custo de adicionar exemplos caiu drasticamente. Mas a comparação não é só sobre custo de token. Ajustar um modelo custa de 4 a 6 vezes mais do que uso padrão de API, segundo os preços da OpenAI. Se você está escolhendo entre ajuste de modelo e rodar muitos exemplos, exemplos geralmente vencem no custo mesmo com tokens extras. ## O meio-termo perigoso A pior abordagem é adicionar exemplos sem pensar se eles realmente ajudam. Prompting por imitação cega. Você viu em algum lugar que "sempre adicione exemplos" e agora todo prompt tem três exemplos, sejam relevantes ou não. A IA se confunde sobre o que é instrução e o que é contexto. A saída piora, não melhora. Ou o oposto: você internalizou que prompts devem ser "claros e diretos" e nunca mostra exemplos, mesmo quando o formato importa. Acaba escrevendo parágrafos sobre estrutura de tabela quando um exemplo comunicaria a mesma coisa em duas linhas. A habilidade não está em decorar regras. Está em reconhecer em que situação você está. ## Combinando abordagens A escolha entre exemplos e instruções não é binária. Você pode explicar o que quer e depois mostrar. Para extração de documentos, você pode escrever: "Extraia nome do cliente, e-mail, avaliação e principal ponto de feedback destes formulários. Formate como JSON." Depois adicione um exemplo mostrando o formato. A instrução explica a tarefa. O exemplo fixa a estrutura da saída. Você ganha clareza e consistência. Essa abordagem híbrida funciona especialmente bem quando: o formato é específico (use o exemplo), mas o raciocínio por trás das decisões importa (use a instrução). Sozinho, nenhum dos dois bastaria. Juntos, cobrem aspectos diferentes do que você precisa. ## O que realmente importa Depois de toda a pesquisa e experimentação, algumas coisas ficam claras. Exemplos ajudam mais em formato, consistência e estilo. Se essas são suas prioridades, use exemplos. Se qualidade de conteúdo e raciocínio são suas prioridades, exemplos podem não ajudar e até atrapalhar. De dois a três exemplos geralmente basta. Mais que isso raramente agrega valor e pode adicionar ruído. A [pesquisa do PromptHub](https://www.prompthub.us/blog/the-few-shot-prompting-guide) mostra que os retornos decrescentes aparecem rápido. Teste na sua tarefa real com seu modelo real. As médias de pesquisa escondem variações enormes. O que funciona para codificação médica pode não funcionar para texto de marketing. E observe o que acontece quando os modelos são atualizados. Seus exemplos cuidadosamente otimizados podem precisar de recalibração. O melhor prompt few-shot do mês passado pode estar mediano hoje. Se você levar uma coisa só daqui, que seja esta: a diferença entre zero-shot e few-shot não é sobre qual técnica é "melhor". É sobre se reconhecimento de padrão ou raciocínio serve melhor à sua tarefa. Às vezes você quer que a IA copie uma estrutura. Às vezes você quer que ela pense. Saber quando é cada caso é o jogo inteiro.