Por que a IA inventa coisas: a verdade sobre alucinações

O advogado confiou no ChatGPT. Ele lhe deu seis citações de casos. Ele as apresentou ao tribunal federal. Nenhum dos casos existia.

Isso aconteceu em maio de 2023 e virou notícia no mundo inteiro. O juiz sancionou os advogados envolvidos. A profissão teve um momento coletivo de pânico. Mas aqui está a parte estranha: a IA fez exatamente o que foi projetada para fazer.

Confiante e errada

Uma alucinação de IA acontece quando um modelo de linguagem gera informação que parece totalmente plausível, mas é falsa. Às vezes um pouco falsa. Às vezes totalmente inventada.

O próprio termo vem da psicologia. Humanos alucinam quando o cérebro percebe coisas que não estão lá. As alucinações de IA funcionam de forma parecida, só que o modelo produz texto sem qualquer base na realidade e o apresenta com confiança inabalável.

Um usuário do Hacker News chamado diputsmonro resumiu isso perfeitamente: “All responses are hallucinations. Some hallucinations happen to overlap the truth.”

Soa provocativo. Também é tecnicamente correto. Toda saída de um modelo de linguagem é uma previsão de quais palavras devem vir em seguida. Algumas previsões batem com os fatos. Outras não. O próprio modelo não consegue distinguir uma da outra.

A arquitetura explica tudo

Modelos de linguagem não armazenam fatos do jeito que um banco de dados armazena registros. Eles aprendem padrões estatísticos. Aprendem que certas palavras tendem a vir depois de outras em determinados contextos. Aprendem que perguntas sobre história costumam ser seguidas por datas. Aprendem que citações incluem nomes de autores, títulos de periódicos e anos entre parênteses.

Quando você pede uma citação a um LLM, ele gera uma. Produz um texto que corresponde ao padrão de como uma citação se parece, com base em milhões de exemplos absorvidos no treinamento. Se essa citação corresponde a um artigo real que existe no mundo físico é uma pergunta para a qual o modelo não tem mecanismo de resposta.

Isso não é um bug de software. É a arquitetura fundamental.

Um comentarista chamado zdragnar explicou o problema central no Hacker News: “the model itself doesn’t know the difference, and will proclaim bullshit with the same level of confidence.”

Essa confiança é a parte letal. Humanos calibram confiança com base no quão certo alguém parece estar. Evoluímos em um ambiente onde afirmações confiantes geralmente vinham de pessoas com conhecimento direto. Uma IA treinada para maximizar engajamento do usuário aprende a soar confiante porque confiança é recompensada.

Por que o treinamento piora isso

Aqui vai algo contraintuitivo. A forma como treinamos modelos de linguagem incentiva ativamente alucinações.

Treinar envolve mostrar ao modelo milhões de exemplos e recompensá-lo quando suas previsões batem com o que realmente vinha em seguida nos dados de treinamento. O modelo ganha pontos por acertar. Ganha zero pontos por dizer “não sei”. Como um aluno que percebe que deixar uma questão em branco garante fracasso, o modelo aprende que chutar é melhor do que admitir incerteza.

Uma pesquisa de Lilian Weng na OpenAI observa que os modelos aprendem informações novas durante o ajuste fino mais devagar do que informações que batem com o conhecimento que já têm. Pior: depois que os modelos de fato aprendem fatos novos durante o ajuste fino, “they increase the model’s tendency to hallucinate.”

O modelo melhora em produzir texto que parece conter fatos. Ele não melhora em distinguir fatos reais de padrões plausíveis.

Também existe um problema de dados. Texto da internet é a fonte de treinamento mais comum. Como colocou uma análise técnica, “Data crawled from the public Internet is the most common choice and thus out-of-date, missing, or incorrect information is expected.” O modelo trata texto preciso e impreciso de forma idêntica. Ambos são só padrões para aprender.

Conversas humanas têm uma propriedade interessante. Quando as pessoas não sabem algo, geralmente ficam em silêncio. Seções de comentários e fóruns contêm, na maior parte, afirmações confiantes. Ninguém publica “não faço ideia sobre esse tema”. O silêncio não contém texto para aprender.

Um usuário do Hacker News chamado mike_hearn identificou esse padrão: “The trouble is that the training sets contain few examples of people expressing uncertainty because the social convention on the internet is that if you don’t know the answer, you don’t post.”

Os modelos aprendem com o texto que existe. Texto que não existe não ensina nada. O corpus é enviesado em direção à confiança e para longe da incerteza adequada. O modelo herda esse viés.

O problema da fronteira

Uma pessoa conhece a fronteira entre memória e imaginação. Você pode lembrar onde estacionou o carro e, ao mesmo tempo, reconhecer que está imaginando o que pode estar no porta-luvas. Essas coisas têm sensações diferentes.

Modelos de linguagem não têm essa fronteira.

Mort96 articulou isso no Hacker News: “The distinction between ‘this is information I truly think I know’ and ‘this is something I made up’ doesn’t exist in LLMs.”

Tudo o que o modelo produz vem do mesmo processo. Recitar fatos bem estabelecidos envolve prever tokens. Inventar absurdos plausíveis envolve prever tokens. Mesmo mecanismo. Mesmo nível de confiança. Nenhum sinal interno que diferencie uma coisa da outra.

É por isso que alucinações são tão perigosas na prática. Não há indício. Não há hesitação. Não há marcador sutil que separe saída confiável de fabricação.

Por que corrigir isso é difícil

Alguns problemas em IA são desafios de engenharia. Jogue mais computação neles, refine o processo de treinamento, e as melhorias aparecem. Alucinação é diferente.

Vários pesquisadores examinaram se alucinações podem ser eliminadas nas arquiteturas atuais. O consenso emergente é sóbrio. Um comentarista chamado calf sugeriu que o problema pode ser “formally unsolvable and should be rendered as absurd as someone claiming the Halting Problem is solvable.”

Soa extremo. O argumento técnico é mais ou menos assim: modelos de linguagem são aproximadores estatísticos. Eles não conseguem capturar completamente todas as funções computáveis. Sempre estarão interpolando entre exemplos de treinamento, em vez de acessar verdade de base. Algumas interpolações erradas são inevitáveis.

Modelos melhores alucinam com menos frequência. Eles não alucinam zero por cento do tempo. A curva se aproxima de zero, mas nunca chega lá.

Existem estratégias de mitigação. Geração aumentada por recuperação dá aos modelos acesso a documentos externos, o que ajuda a fundamentar respostas em fontes reais. Prompting com cadeia de pensamento força os modelos a mostrar o raciocínio, o que às vezes detecta erros antes que se acumulem. Verificação humana continua sendo o detector mais confiável.

Mas esses são contornos, não solução. Eles reduzem a taxa sem eliminar o fenômeno. A limitação arquitetural permanece.

As implicações de que ninguém fala

A maioria das discussões sobre alucinação termina com dicas práticas. Confira suas fontes. Verifique citações. Não confie cegamente. Esse conselho está certo e, ao mesmo tempo, deixa passar algo mais profundo.

Estamos construindo infraestrutura sobre sistemas que têm uma taxa não nula de fabricação confiante. Não sistemas que às vezes ficam incertos. Sistemas que estão sempre confiantes e às vezes erram de um jeito indistinguível de quando acertam.

Todo setor que automatiza com LLMs está aceitando isso implicitamente. Pesquisa jurídica. Triagem médica. Análise financeira. Suporte ao cliente. Geração de código. Os ganhos de eficiência são reais. A taxa de alucinação embutida também.

Elcritch, comentando sobre geração de código por LLM, observou que “LLMs will just outright lie to make their jobs easier in one section while in another area generate high quality code.” O mesmo modelo, o mesmo prompt, confiabilidade inconsistente. Não porque algo deu errado. Porque é assim que o sistema funciona.

O que as alucinações nos ensinam

Alucinações revelam algo sobre a natureza da linguagem que humanos raramente encaram.

Uma frase pode ser gramaticalmente perfeita, semanticamente coerente, estilisticamente adequada e completamente falsa. As estruturas da linguagem não exigem verdade. Prosa persuasiva não precisa corresponder à realidade. Autoridade no texto é performance, não garantia.

Humanos usam contexto para detectar engano. Sabemos quem fala. Sabemos o histórico de acertos dessa pessoa. Sabemos quais incentivos podem levá-la a enganar. Aplicamos ceticismo calibrado à situação.

Saídas de IA chegam sem esse contexto. Nenhum histórico com essa consulta específica. Nenhum incentivo que possamos modelar. Nenhum histórico de relação. Apenas texto que soa exatamente como texto produzido por um especialista que checou os fatos.

O ônus passa totalmente para o leitor. Toda afirmação vira suspeita até ser verificada de forma independente. Toda citação precisa ser checada. Toda estatística precisa de fonte. Parte da eficiência de gerar com IA é consumida pelo custo de verificação.

O equilíbrio desconfortável

Os modelos vão continuar melhorando. As taxas de alucinação vão continuar caindo. Treinamentos mais sofisticados vão penalizar excesso de confiança. Arquiteturas melhores talvez acabem incorporando algo como quantificação de incerteza.

Mas a dinâmica fundamental permanece. Esses sistemas preveem padrões. Padrões não são iguais à verdade. Algumas previsões sempre vão cair fora dos limites dos fatos.

Talvez a lição real não seja sobre IA.

Humanos sempre operaram em ambientes onde afirmações confiantes às vezes se mostram falsas. Desenvolvemos instituições para lidar com isso: revisão por pares, supervisão editorial, descoberta jurídica, replicação científica. Confie, mas verifique. Considere a fonte. Vá ao original.

Alucinações de IA não introduzem um problema novo. Elas amplificam um problema antigo. Produzem afirmações plausíveis em volume e velocidade que atropelam nossos processos tradicionais de verificação.

O advogado que apresentou citações falsas não falhou porque usou IA. Ele falhou porque confiou sem verificar. Essa falha já era possível antes de o ChatGPT existir. Só era mais lenta de cometer.

A verdade desconfortável é que as alucinações nos forçam a lembrar de algo que tínhamos conseguido esquecer: que fluência não é precisão, que confiança não é correção e que a relação entre palavras e verdade sempre foi mais frágil do que gostamos de admitir.

Toda frase que você já leu, incluindo esta, pode estar errada.

A pergunta nunca foi se confiar. Sempre foi como verificar.

Por que a IA inventa coisas: a verdade sobre alucinações

Confiante e errada

A arquitetura explica tudo

Por que o treinamento piora isso

O problema da fronteira

Por que corrigir isso é difícil

As implicações de que ninguém fala

O que as alucinações nos ensinam

O equilíbrio desconfortável

Ready For DatBot?

Top Articles

guide . May 23, 2025

The Ultimate AI Engineering Prompt Guide: From System Design to Code Reviews

Read article

guide . January 16, 2026

Bringing a team? Here's how to get started

Read article

announcement . March 5, 2025

NEW Image Generation: Pro-Level AI Art at Your Fingertips

Read article

announcement . March 10, 2025

NEW Voice Generation: 20 Premium Voices at Your Command

Read article

Come on in, the water's warm

Confiante e errada

A arquitetura explica tudo

Por que o treinamento piora isso

O problema do silêncio social

O problema da fronteira

Por que corrigir isso é difícil

As implicações de que ninguém fala

O que as alucinações nos ensinam

O equilíbrio desconfortável

Ready For DatBot?

Top Articles

guide . May 23, 2025

The Ultimate AI Engineering Prompt Guide: From System Design to Code Reviews

Read article

guide . January 16, 2026

Bringing a team? Here's how to get started

Read article

announcement . March 5, 2025

NEW Image Generation: Pro-Level AI Art at Your Fingertips

Read article

announcement . March 10, 2025

NEW Voice Generation: 20 Premium Voices at Your Command

Read article

Come on in, the water's warm