A revolução do Transformer em 2017: como oito pesquisadores reconfiguraram a IA

Oito pesquisadores do Google publicaram um artigo em junho de 2017. O título era brincalhão, uma referência aos Beatles: “Attention Is All You Need.” O artigo tinha 15 páginas. Ele descrevia uma arquitetura chamada transformer.

Esse artigo abriu a IA de vez.

O mundo antigo: redes neurais recorrentes

Antes dos transformers, modelos de linguagem processavam texto de forma sequencial, que é uma forma sofisticada de dizer que liam uma palavra de cada vez, da esquerda para a direita, exatamente como humanos fazem ao ler em voz alta para crianças.

Essa arquitetura tinha nome. Redes neurais recorrentes. RNNs.

O problema de ler uma palavra por vez é que você esquece o que veio antes, e a arquitetura das RNNs piorava isso porque elas tinham dificuldade para manter informação ao longo de sequências longas. Na palavra cinquenta, a palavra três já tinha praticamente sumido da memória de trabalho do modelo, desbotada em ruído numérico que corrompia os cálculos seguintes.

Uma variante chamada redes Long Short-Term Memory, ou LSTMs, melhorou isso em 1997. Elas adicionaram portas: mecanismos que podiam decidir o que lembrar e o que esquecer. LSTMs funcionavam melhor. Viraram padrão.

Mas LSTMs tinham seu próprio problema. Processamento sequencial. Para lidar com a palavra dez, você precisava da saída da palavra nove, que precisava da oito, que precisava da sete. Sem atalhos. Sem paralelismo. O treinamento se arrastava porque as GPUs ficavam ociosas, esperando cálculos anteriores terminarem antes de iniciar os próximos.

Como um comentarista do Hacker News observou em uma discussão de 2020 sobre o artigo original: “It’s clearly important but I found that paper hard to follow.” O campo estava pronto para algo mais simples. Algo mais rápido. Algo que realmente pudesse escalar.

A sacada central: olhar para tudo de uma vez

A inovação central do transformer foi abandonar a sequência por completo.

Em vez de processar as palavras uma por uma, transformers olham para todas as palavras simultaneamente. Em vez de lembrar o que veio antes, eles calculam relações entre cada palavra e todas as outras em tempo real. Toda vez.

Isso parece computacionalmente caro. E é. Mas paraleliza perfeitamente. Cada comparação palavra a palavra pode acontecer ao mesmo tempo em diferentes núcleos de GPU. Treinamentos que levavam semanas com RNNs passaram a levar dias com transformers.

O mecanismo que permite isso é chamado de attention. Mais especificamente, self-attention.

Self-attention: o mecanismo central

Aqui está uma frase: “O cachorro não atravessou a rua porque ele estava cansado demais.”

A que “ele” se refere? Ao cachorro. Óbvio. Humanos resolvem isso instantaneamente. Não pensamos nisso de forma consciente. Simplesmente sabemos.

Mas como uma máquina descobriria isso?

Self-attention calcula uma pontuação entre cada par de palavras. Ao processar “ele”, o modelo calcula quanta atenção “ele” deve dar a cada outra palavra: “o”, “cachorro”, “não”, “atravessou”, “a”, “rua”, “porque”, “estava”, “cansado”, “demais”. A palavra “cachorro” recebe uma pontuação alta de atenção. A palavra “rua” recebe uma baixa.

Isso acontece para cada palavra simultaneamente. O modelo constrói uma representação ponderada em que cada palavra incorpora informação de todas as outras palavras com as quais deveria se importar. Distância não importa. “Cachorro” pode estar a três palavras de distância ou a trinta. O mecanismo de atenção encontra de qualquer forma.

Jay Alammar, cujo Illustrated Transformer se tornou leitura obrigatória para qualquer pessoa aprendendo esse material, resumiu de forma simples: “Self-attention is the method the Transformer uses to bake the ‘understanding’ of other relevant words into the one we’re currently processing.”

Múltiplas perspectivas: atenção multi-head

Um mecanismo de atenção captura um tipo de relação. Mas a linguagem tem muitos tipos de relações acontecendo ao mesmo tempo. Relações gramaticais. Relações semânticas. Relações referenciais. Relações temporais.

O transformer usa múltiplas “heads” de atenção rodando em paralelo. Cada head aprende a focar em padrões diferentes. Uma pode rastrear concordância entre sujeito e verbo. Outra pode rastrear referências pronominais. Outra pode capturar similaridade semântica.

Alammar explica o benefício: “It expands the model’s ability to focus on different positions” and “It gives the attention layer multiple ‘representation subspaces.’”

Os resultados de todas as heads são combinados. O modelo enxerga a frase por vários ângulos ao mesmo tempo, integrando diferentes tipos de informação linguística em uma representação única e rica que captura mais do que qualquer mecanismo de atenção isolado conseguiria.

Posição sem sequência

Aqui está um problema sutil. Se você processa todas as palavras ao mesmo tempo, como sabe a ordem delas? “Cachorro morde homem” significa algo diferente de “homem morde cachorro”.

Transformers resolvem isso adicionando codificações posicionais. Antes do processamento, cada palavra recebe informação sobre sua posição injetada na sua representação. O modelo aprende a usar essa informação de posição. A ordem das palavras é preservada sem processamento sequencial.

Essa foi uma das decisões de engenharia inteligentes que fizeram a arquitetura inteira funcionar.

Por que isso realmente funcionou

Os revisores originais no NeurIPS 2017 viram algo especial. Um revisor observou: “This work introduces a quite strikingly different approach to the problem of sequence-to-sequence modeling.” Outro reconheceu que “the combination of them and the details necessary for getting it to work as well as LSTMs is a major achievement.”

Os resultados falaram alto. No benchmark de tradução WMT 2014 de inglês para alemão, o transformer atingiu 28.4 BLEU, superando o melhor resultado existente em mais de 2 pontos. Em inglês para francês, chegou a 41.8 BLEU. Estado da arte. De novo.

E treinava mais rápido. Muito mais rápido. A paralelização que veio de abandonar o processamento sequencial significava que você podia jogar mais hardware no problema e realmente obter ganhos de velocidade proporcionais.

Mas o impacto real não foram os benchmarks. Foi o que veio depois.

A generalidade inesperada

O transformer foi projetado para tradução. Linguagem entra, linguagem sai. Ninguém esperava que ele funcionasse para todo o resto.

Funcionou.

Em 2020, pesquisadores adaptaram transformers para imagens. O Vision Transformer, ou ViT, trata uma imagem como uma sequência de blocos e os processa com atenção. Ele igualou ou superou redes neurais convolucionais que dominavam visão computacional havia quase uma década.

Áudio. Dobramento de proteínas. Robótica. Aprendizado por reforço. Jogos. Geração de código. Uma arquitetura continuava aparecendo em todo lugar.

Como um usuário do Hacker News observou durante uma retrospectiva de 2020: “It’s crazy to me to see what still feel like new developments (come on, it was just 2017!) making their way into mainstream.”

Outro usuário captou algo mais profundo sobre o que tornava transformers diferentes: “The successful removal of inductive bias is really what differentiates this from previous sequence-to-sequence neural networks.”

Essa remoção de viés indutivo acabou sendo a arma secreta dos transformers. RNNs assumiam que sequência importava de um jeito específico. Redes convolucionais assumiam que padrões locais importavam de um jeito específico. Transformers quase não assumiam nada. Aprendiam tudo a partir de dados.

Isso os tornou flexíveis. Isso os tornou escaláveis.

O caminho para tudo

O artigo do transformer não criou o ChatGPT. Criou a base.

BERT chegou em 2018. O encoder bidirecional do Google usou transformers para entender contexto linguístico em ambas as direções. Dominou benchmarks de compreensão de linguagem natural.

GPT chegou em 2018 pela OpenAI. Generative Pre-trained Transformer. O nome já carregava “transformer” no próprio acrônimo. GPT-2 veio em 2019. GPT-3 em 2020 escalou para 175 bilhões de parâmetros e mostrou capacidades que ninguém esperava só com escala.

Claude. Gemini. Llama. Todo grande modelo de linguagem hoje é um transformer ou um derivado próximo.

A arquitetura que começou como uma melhoria de tradução virou o substrato da pesquisa em inteligência artificial geral.

Custos e limites

Transformers não são de graça. Self-attention compara cada palavra com todas as outras. Com N palavras, isso dá N ao quadrado em comparações. Dobre o tamanho do contexto, quadruplica a computação.

Isso cria limites duros. Transformers iniciais lidavam com alguns milhares de tokens. Modelos modernos avançam para centenas de milhares, mas cada extensão exige truques de engenharia: atenção esparsa, janelas deslizantes, mecanismos de memória. O custo quadrático nunca desaparece. Só é administrado.

Um comentarista do Hacker News observou sem rodeios: “The amount of computation for processing a sequence size N with a vanilla transformer is still N^2.”

Os custos de treinamento também escalaram. GPT-4 supostamente custou mais de 100 milhões de dólares para treinar. Só um punhado de organizações pode bancar desenvolvimento de modelos de fronteira. A arquitetura democratizante criou uma indústria centralizadora.

O que vem depois

Em 2025, pesquisadores buscavam ativamente alternativas. Modelos de espaço de estados como o Mamba prometiam escala linear em vez de quadrática. Arquiteturas de mistura de especialistas, supostamente usadas no GPT-4, ativam apenas partes do modelo para cada entrada.

Um dos autores originais de “Attention Is All You Need”, Llion Jones, falou publicamente no início de 2025: “I’m going to drastically reduce the amount of time that I spend on transformers…I’m explicitly now exploring and looking for the next big thing.”

Mas transformers seguem dominantes. Qualquer substituto precisa igualar suas capacidades enquanto resolve suas limitações. Ninguém conseguiu isso ainda.

O artigo em retrospecto

Oito autores escreveram “Attention Is All You Need.” Eles trabalhavam no Google Brain e no Google Research. O título era uma piada com os Beatles. O conteúdo era sério.

O que fez esse artigo importar?

Simplicidade. Jogar fora recorrência e convolução deixou uma arquitetura mais limpa. Arquiteturas mais simples escalam melhor. Arquiteturas mais simples transferem melhor. Arquiteturas mais simples sobrevivem por mais tempo.

Paralelização. GPUs existiam. Grandes conjuntos de dados existiam. A infraestrutura para usar transformers em escala estava surgindo justamente quando a arquitetura chegou.

Generalidade. A mesma arquitetura funcionou para tradução, depois modelagem de linguagem, depois imagens, depois áudio, depois vídeo, depois dobramento de proteínas. Uma arquitetura para dominar todas não era o plano. Foi o resultado.

Timing. 2017 foi tarde o suficiente para que poder computacional tornasse transformers práticos e cedo o suficiente para que as implicações completas levassem anos para se desenrolar.

Por que entender isso importa

Você não precisa entender pontuações de atenção para usar Claude ou GPT. Mas entender a arquitetura básica ajuda você a entender por que esses sistemas se comportam do jeito que se comportam.

Transformers são máquinas de padrões. Eles se destacam em encontrar e gerar padrões em dados. Não são motores de raciocínio, embora simulem raciocínio por meio de correspondência de padrões sofisticada.

Contexto importa porque transformers veem todo o contexto que você fornece simultaneamente. Mais contexto geralmente significa saídas melhores. Contexto inconsistente confunde a correspondência de padrões.

Limites existem porque escala quadrática é implacável. Documentos longos batem em paredes. Cadeias de raciocínio complexas quebram. A arquitetura tem restrições reais.

E todo grande modelo usa a mesma base. GPT, Claude e Gemini parecem diferentes por fora. Por dentro, são todos transformers. Entender uma arquitetura ajuda você a entender todas.

Os oito pesquisadores que publicaram “Attention Is All You Need” em 2017 não poderiam ter previsto até onde a arquitetura deles iria. Modelos de linguagem que conversam. Geradores de imagem que sonham. Assistentes de código que programam. Nada disso estava no artigo original. Tudo isso veio dos transformers.

Os artigos mais consequentes da ciência da computação não se anunciam como tais. Eles descrevem uma técnica. Reportam alguns benchmarks. São publicados.

Depois mudam tudo.

A revolução do Transformer em 2017: como oito pesquisadores reconfiguraram a IA

O mundo antigo: redes neurais recorrentes

A sacada central: olhar para tudo de uma vez

Self-attention: o mecanismo central

Múltiplas perspectivas: atenção multi-head

Posição sem sequência

Por que isso realmente funcionou

A generalidade inesperada

O caminho para tudo

Custos e limites

O que vem depois

O artigo em retrospecto

Por que entender isso importa

Ready For DatBot?

Top Articles

guide . May 23, 2025

The Ultimate AI Engineering Prompt Guide: From System Design to Code Reviews

Read article

guide . January 16, 2026

Bringing a team? Here's how to get started

Read article

announcement . March 5, 2025

NEW Image Generation: Pro-Level AI Art at Your Fingertips

Read article

announcement . March 10, 2025

NEW Voice Generation: 20 Premium Voices at Your Command

Read article

Come on in, the water's warm