ai-fundamentals
9 min read
View as Markdown

Tokens e janelas de contexto: por que a IA esquece

O que os tokens realmente são, por que as janelas de contexto limitam a memória da IA e por que seu assistente de IA perde o fio da conversa. Um olhar para a mecânica por trás do esquecimento da IA.

Robert Soares

Lá pela mensagem quinze, o assistente de IA para de reconhecer seu projeto. Você lembra. Ele pede desculpas. Duas mensagens depois, esquece de novo.

Isso não é um bug. É arquitetura.

Palavras não são o que a IA lê

Abra um livro. Você vê palavras. Um modelo de IA vê algo diferente: blocos chamados tokens.

Um token pode ser uma palavra completa, mas muitas vezes não é. A palavra “hamburger” se divide em três pedaços. “Ham.” “Bur.” “Ger.” Cada pedaço é um token separado que o modelo processa de forma independente, mesmo que seu cérebro veja uma palavra só.

Essa divisão acontece por meio de um processo chamado tokenização, e modelos diferentes usam abordagens diferentes. O algoritmo específico importa mais do que a maioria das pessoas imagina. Como Simon Willison observou em sua análise de tokenizadores do GPT: “Many of the quirks and limitations of LLMs can be traced back to details of the tokenizer used.”

Palavras comuns permanecem intactas. Palavras raras são fatiadas. Jargão técnico, nomes, texto que não está em inglês? Picotados em fragmentos.

Aqui é que a coisa fica interessante. A própria palavra “Tokenization” se divide em dois tokens: token 30,642 e token 1,634. A IA não enxerga isso como uma unidade. Ela vê duas partes que aprenderam a andar juntas durante o treinamento, do mesmo jeito que você aprendeu que “ham,” “bur,” e “ger” formam um sanduíche.

Idioma também importa. O inglês é tokenizado com eficiência porque esses sistemas foram treinados principalmente em texto em inglês. Espanhol, chinês, árabe? Todos produzem mais tokens por palavra. A frase “Cómo estás” usa 5 tokens para apenas 10 caracteres, o que significa que quem não fala inglês bate no limite mais rápido dizendo menos.

A memória estranha do tokenizador

Tokenizadores se lembram de coisas dos dados de treinamento de maneiras estranhas.

Willison observou um viés interessante: “The English bias is obvious here. ’ man’ gets a lower token ID of 582, because it’s an English word.” IDs de token mais baixos geralmente correspondem a tokens mais comuns. O modelo basicamente tem favoritos.

Depois vêm os tokens com falhas. Durante o treinamento do tokenizador, certos padrões apareceram com tanta frequência que viraram tokens próprios, mesmo quando não deveriam. Um exemplo é ” davidjl” (com o espaço no início), que virou um token próprio porque esse nome de usuário apareceu centenas de milhares de vezes nos dados de treinamento do GPT-2. O tokenizador antigo codificava “SolidGoldMagikarp” como um único token por causa de acidentes estatísticos parecidos. O tokenizador novo divide em cinco: “Solid,” “Gold,” “Mag,” “ik,” “arp.”

Isso não é só curiosidade. Isso revela que tokenização não é uma camada de tradução neutra. Ela carrega os vieses e os acidentes dos dados de treinamento para cada conversa que você tem com uma IA.

Janelas de contexto: as paredes invisíveis

Todo modelo de IA tem uma janela de contexto. Esse é o número máximo de tokens que ele consegue manter de uma vez. Suas mensagens, as respostas da IA, quaisquer documentos que você envie, o prompt de sistema rodando no fundo: tudo isso precisa caber nessa janela.

Os números cresceram muito. O GPT-4 Turbo oferece 128.000 tokens. Claude entrega 200.000 tokens. Gemini 2.5 Pro empurra para 1 milhão. O Llama 4 Scout da Meta fala em 10 milhões.

Um milhão de tokens parece infinito. Dá cerca de 750.000 palavras. Vários romances. Uma base de código inteira.

Então por que sua IA esquece o que você disse vinte minutos atrás?

Janelas maiores, mesmos problemas

No Hacker News, um usuário chamado jokethrowaway foi direto ao ponto: “Context window size is not the limiting factor. How well will it be able to use that information is the problem.”

Ter espaço não é o mesmo que usar o espaço bem.

Pesquisas de Stanford demonstraram o que chamaram de efeito “lost in the middle”. Modelos de IA mostram uma curva de atenção em U. Eles prestam atenção muito bem às informações no começo do contexto. Prestam atenção muito bem às informações no fim. No meio? Some.

Em experimentos, o desempenho do GPT-3.5-Turbo caiu mais de 20% quando informações-chave foram colocadas no meio da entrada em vez de no começo ou no fim. Às vezes, o modelo teve desempenho pior do que se não tivesse contexto nenhum. Ter a informação e usar a informação são coisas diferentes.

Isso não é um bug de software que vai ser corrigido na próxima terça. Isso emerge do mecanismo de atenção que faz os transformers funcionarem em primeiro lugar, o processo matemático que permite ao modelo entender quais partes da entrada se relacionam com quais outras partes. Esse mecanismo favorece naturalmente certas posições. A arquitetura tem opiniões sobre o que importa.

O abismo entre promessa e realidade

Uma pesquisa da Chroma examinou o que acontece quando os modelos se aproximam de seus limites anunciados. A conclusão: “most models break much earlier than advertised. A model claiming 200k tokens typically becomes unreliable around 130k, with sudden performance drops rather than gradual degradation.”

Modelos não desvanecem com elegância. Eles funcionam, depois deixam de funcionar. O penhasco é íngreme.

Nos fóruns de desenvolvedores da OpenAI, usuários documentaram essa experiência repetidamente. Um usuário chamado rajeev.a.j.madari descreveu a frustração: “ChatGPT struggles to remember the entirety of our chat. Most times, it appears as though the system only acknowledges my most recent input, causing confusion.”

Outro usuário, Joel_Barger, apontou consequências práticas: “In a coding situation context is important. It’ll lose or change the name of namespaces or class methods arbitrarily.”

Esses não são casos de borda. Essa é a experiência normal de conversas longas com modelos de IA.

Escala de computação, dinheiro queimando

Tornar janelas de contexto maiores é caro. Um usuário chamado gdiamos explicou a economia no Hacker News: “the compute still scales at best linearly with the input size. So a context size of 100k requires 100x more compute than a prompt size of 1k.”

Mas na prática é pior que linear. O mecanismo de atenção escala quadraticamente com o comprimento da sequência. Dobre o contexto, quadruplique a computação. É por isso que janelas de contexto maiores custam mais por token. É por isso que planos gratuitos têm limites menores. É por isso que até seu plano empresarial acaba te cortando.

Várias técnicas mitigam isso. Padrões de atenção esparsa pulam conexões entre tokens distantes. Abordagens de janela deslizante processam blocos separadamente. Inovações de arquitetura comprimem contexto antigo em resumos. Mas cada solução troca alguma coisa: velocidade, precisão ou a capacidade de conectar ideias a longas distâncias.

Por que recursos de “memória” não resolvem isso

Assistentes de IA modernos anunciam recursos de memória. O ChatGPT vai lembrar que você prefere respostas concisas. Claude pode armazenar fatos sobre seus projetos entre conversas.

Isso não é a mesma coisa que contexto.

Esses sistemas de memória armazenam fatos específicos em um banco de dados separado. Quando você inicia uma nova conversa, a IA recupera memórias relevantes e as insere na janela de contexto. É recuperação, não lembrança de verdade. A diferença importa porque a recuperação é seletiva. O sistema chuta quais fatos salvos importam para essa conversa. Às vezes ele erra. E mesmo quando acerta, essas memórias recuperadas ainda disputam espaço na mesma janela de contexto limitada que todo o resto.

Como segmondy apontou no Hacker News: “infinite context window is not AGI enough, memory is not substitute for planning and reasoning.”

Armazenar fatos não é o mesmo que entendê-los. Lembrar que você mencionou um prazo na terça passada não é o mesmo que acompanhar como esse prazo interage com as outras três restrições que você mencionou nesta terça.

Posição é estratégia

Se você entende como janelas de contexto funcionam, consegue trabalhar com elas em vez de contra elas.

Coloque as informações críticas primeiro. O modelo presta atenção no começo. Não aqueça com contexto de fundo e deixe as restrições importantes para o sexto parágrafo. Comece pelo que importa.

Repita-se com estratégia. Se algo foi crucial na mensagem três e você já está na mensagem trinta, diga de novo. O modelo não vai se ofender. Provavelmente nem lembra mesmo.

Mantenha as conversas focadas. Uma janela de contexto compartilhada entre quinze tópicos diferentes é pior que três conversas separadas sobre cinco tópicos cada. Especificidade vence dispersão.

Resuma periodicamente. Quando uma conversa ficar longa, peça para a IA resumir os pontos-chave e então comece uma nova conversa com esse resumo como primeira mensagem. Você perde nuance, mas ganha clareza.

O futuro estranho

As janelas de contexto continuam crescendo. A comunidade de pesquisa continua encontrando formas de empurrar os limites. Saímos de 4.000 tokens para 10 milhões em poucos anos. Essa trajetória provavelmente vai continuar.

Mas maior não é o mesmo que melhor, e os desafios fundamentais continuam sendo arquiteturais. fsndz observou no Hacker News: “Context windows are becoming larger and larger, and I anticipate more research focusing on this trend.” A pesquisa existe porque o problema existe.

Há algo quase poético em construir sistemas que esquecem. A memória humana também é imperfeita. Perdemos o meio das aulas. Lembramos começos e finais. Reconstruímos em vez de recordar. A IA não imita a memória humana por design. Ela chega a limitações parecidas por mecanismos completamente diferentes. Arquiteturas diferentes, mesmo resultado: coisas se perdem.

Você conta à IA sobre seu projeto. Ela responde de forma útil. Você continua a conversa. Lá pela mensagem quinze, você percebe que aquela resposta útil se desviou. A IA ainda está respondendo. Ainda está confiante. Ela simplesmente esqueceu do que você realmente estava falando.

Isso não é malícia. É matemática.

E até a matemática mudar, toda conversa com uma IA carrega uma contagem regressiva invisível.

Ready For DatBot?

Use Gemini 2.5 Pro, Llama 4, DeepSeek R1, Claude 4, O3 and more in one place, and save time with dynamic prompts and automated workflows.

Top Articles

Come on in, the water's warm

See how much time DatBot.AI can save you