--- title: El gran avance de los transformers en 2017: cómo ocho investigadores reconfiguraron la IA description: Una explicación en lenguaje sencillo del artículo 'Attention Is All You Need' que creó la arquitectura detrás de GPT, Claude y de todos los grandes modelos de IA que usas hoy. date: February 5, 2026 author: Robert Soares category: ai-fundamentals --- Ocho investigadores de Google publicaron un artículo en junio de 2017. Su título era juguetón, un guiño a los Beatles: "Attention Is All You Need." El artículo tenía 15 páginas. Describía una arquitectura llamada transformer. Ese artículo abrió la IA de par en par. ## El viejo mundo: redes neuronales recurrentes Antes de los transformers, los modelos de lenguaje procesaban texto de forma secuencial, que es una manera elegante de decir que leían una palabra a la vez, de izquierda a derecha, exactamente como lo hacemos los humanos cuando leemos en voz alta a los niños. Esta arquitectura tenía un nombre: redes neuronales recurrentes. RNN. El problema de leer una palabra a la vez es que olvidas lo que vino antes, y la arquitectura de las RNN empeoraba este problema porque les costaba mantener información a lo largo de secuencias largas. Para la palabra cincuenta, la palabra tres casi había desaparecido de la memoria de trabajo del modelo, diluida en ruido numérico que corrompía los cálculos posteriores. Una variante llamada redes Long Short-Term Memory, o LSTM, mejoró las cosas en 1997. Añadieron compuertas: mecanismos que podían decidir qué recordar y qué olvidar. Las LSTM funcionaban mejor. Se volvieron el estándar. Pero las LSTM tenían su propio problema: el procesamiento secuencial. Para manejar la palabra diez, necesitabas la salida de la palabra nueve, que necesitaba la ocho, que necesitaba la siete. Sin atajos. Sin paralelismo. El entrenamiento avanzaba a paso de tortuga porque las GPU estaban ociosas, esperando a que terminaran los cálculos previos antes de empezar los siguientes. Como señaló un usuario de Hacker News en una discusión de 2020 sobre el artículo original: "It's clearly important but I found that paper hard to follow." El campo estaba listo para algo más simple. Algo más rápido. Algo que de verdad pudiera escalar. ## La idea clave: mirar todo a la vez La innovación central del transformer fue abandonar por completo la secuencia. En lugar de procesar palabras una por una, los transformers miran todas las palabras simultáneamente. En lugar de recordar lo que vino antes, calculan relaciones entre cada palabra y todas las demás en tiempo real. Cada vez. Esto suena computacionalmente caro. Lo es. Pero se paraleliza de forma perfecta. Cada comparación palabra a palabra puede ocurrir al mismo tiempo en distintos núcleos de GPU. Entrenamientos que tardaban semanas con RNN pasaron a tardar días con transformers. El mecanismo que permite esto se llama atención. Más concretamente, autoatención. ## Autoatención: el mecanismo central Aquí va una oración: "El perro no cruzó la calle porque él estaba demasiado cansado." ¿A qué se refiere "él"? Al perro. Obvio. Los humanos resolvemos esto al instante. No lo pensamos de forma consciente. Simplemente lo sabemos. Pero, ¿cómo lo averiguaría una máquina? La autoatención calcula una puntuación entre cada par de palabras. Al procesar "él", el modelo calcula cuánta atención debe prestar "él" a cada otra palabra: "el", "perro", "no", "cruzó", "la", "calle", "porque", "estaba", "demasiado", "cansado". La palabra "perro" recibe una puntuación alta de atención. La palabra "calle" recibe una baja. Esto ocurre para cada palabra al mismo tiempo. El modelo construye una representación ponderada donde cada palabra incorpora información de todas las demás palabras que le importan. La distancia no importa. "Perro" puede estar a tres palabras o a treinta. El mecanismo de atención lo encuentra igual. Jay Alammar, cuyo Illustrated Transformer se volvió lectura obligatoria para cualquiera que aprendiera este material, lo explicó así: "Self-attention is the method the Transformer uses to bake the 'understanding' of other relevant words into the one we're currently processing." ## Múltiples perspectivas: atención multi-cabeza Un mecanismo de atención captura un tipo de relación. Pero el lenguaje tiene muchos tipos de relaciones ocurriendo a la vez. Relaciones gramaticales. Relaciones semánticas. Relaciones referenciales. Relaciones temporales. El transformer usa múltiples "cabezas" de atención ejecutándose en paralelo. Cada cabeza aprende a enfocarse en patrones distintos. Una puede seguir la concordancia sujeto-verbo. Otra puede seguir las referencias pronominales. Otra puede capturar similitud semántica. Alammar explica el beneficio: "It expands the model's ability to focus on different positions" and "It gives the attention layer multiple 'representation subspaces.'" Los resultados de todas las cabezas se combinan. El modelo ve la oración desde múltiples ángulos a la vez, integrando distintos tipos de información lingüística en una sola representación rica que capta más de lo que cualquier mecanismo de atención individual podría captar por sí solo. ## Posición sin secuencia Aquí hay un problema sutil. Si procesas todas las palabras simultáneamente, ¿cómo sabes su orden? "Perro muerde hombre" significa algo distinto de "hombre muerde perro". Los transformers resuelven esto añadiendo codificaciones posicionales. Antes de procesar, cada palabra recibe información sobre su posición inyectada en su representación. El modelo aprende a usar esta información de posición. El orden de las palabras se conserva sin procesamiento secuencial. Esta fue una de las decisiones de ingeniería inteligentes que hicieron que toda la arquitectura funcionara. ## Por qué realmente funcionó Los revisores originales en NeurIPS 2017 vieron algo especial. Un revisor señaló: "This work introduces a quite strikingly different approach to the problem of sequence-to-sequence modeling." Otro reconoció que "the combination of them and the details necessary for getting it to work as well as LSTMs is a major achievement." Los resultados hablaron fuerte. En la prueba de referencia de traducción inglés-alemán WMT 2014, el transformer logró 28.4 BLEU, superando el estado del arte existente por más de 2 puntos. En inglés-francés, llegó a 41.8 BLEU. Estado del arte. Otra vez. Y entrenaba más rápido. Mucho más rápido. La capacidad de paralelización que vino de abandonar el procesamiento secuencial significó que podías lanzar más hardware al problema y realmente obtener aceleraciones proporcionales. Pero el impacto real no fueron los benchmarks. Fue lo que pasó después. ## La generalidad inesperada El transformer se diseñó para traducción. Entra lenguaje, sale lenguaje. Nadie esperaba que funcionara para todo lo demás. Funcionó. Para 2020, los investigadores adaptaron transformers a imágenes. El Vision Transformer, o ViT, trata una imagen como una secuencia de parches y los procesa con atención. Igualó o superó a las redes neuronales convolucionales que habían dominado la visión por computador durante casi una década. Audio. Plegamiento de proteínas. Robótica. Aprendizaje por refuerzo. Juegos. Generación de código. Una arquitectura seguía apareciendo en todas partes. Como observó un usuario de Hacker News durante una retrospectiva de 2020: "It's crazy to me to see what still feel like new developments (come on, it was just 2017!) making their way into mainstream." Otro usuario captó algo más profundo sobre lo que hacía distintos a los transformers: "The successful removal of inductive bias is really what differentiates this from previous sequence-to-sequence neural networks." Esa eliminación del sesgo inductivo resultó ser el arma secreta de los transformers. Las RNN asumían que la secuencia importaba de una forma específica. Las redes convolucionales asumían que los patrones locales importaban de una forma específica. Los transformers no asumían casi nada. Aprendían todo a partir de datos. Eso los hizo flexibles. Eso los hizo escalables. ## El camino hacia todo El artículo de transformers no creó ChatGPT. Creó la base. BERT llegó en 2018. El codificador bidireccional de Google usó transformers para entender el contexto del lenguaje desde ambas direcciones. Dominó las pruebas de referencia de comprensión del lenguaje natural. GPT llegó en 2018 desde OpenAI. Generative Pre-trained Transformer. El nombre llevaba "transformer" ahí mismo en el acrónimo. GPT-2 llegó en 2019. GPT-3 en 2020 escaló a 175 mil millones de parámetros y mostró capacidades que nadie esperaba solo por escala. Claude. Gemini. Llama. Todos los grandes modelos de lenguaje de hoy son transformers o derivados cercanos. La arquitectura que empezó como una mejora para traducción se convirtió en el sustrato de la investigación en inteligencia artificial general. ## Costes y límites Los transformers no son gratis. La autoatención compara cada palabra con todas las demás. Con N palabras, eso es N al cuadrado comparaciones. Si duplicas la longitud del contexto, cuadruplicas el cómputo. Esto crea límites duros. Los transformers tempranos manejaban unos pocos miles de tokens. Los modelos modernos llegan a cientos de miles, pero cada extensión exige trucos de ingeniería: atención dispersa, ventanas deslizantes, mecanismos de memoria. El coste cuadrático nunca desaparece. Solo se gestiona. Un comentarista de Hacker News lo dijo sin rodeos: "The amount of computation for processing a sequence size N with a vanilla transformer is still N^2." También se dispararon los costes de entrenamiento. Se dice que GPT-4 costó más de 100 millones de dólares de entrenar. Solo un puñado de organizaciones puede permitirse desarrollar modelos de frontera. La arquitectura que democratizaba terminó creando una industria que concentra. ## Qué viene después Para 2025, los investigadores ya estaban buscando alternativas activamente. Los modelos de espacio de estados como Mamba prometían escalado lineal en lugar de cuadrático. Las arquitecturas de mezcla de expertos, supuestamente usadas en GPT-4, activan solo partes del modelo para cada entrada. Uno de los autores originales de "Attention Is All You Need", Llion Jones, lo dijo públicamente a comienzos de 2025: "I'm going to drastically reduce the amount of time that I spend on transformers...I'm explicitly now exploring and looking for the next big thing." Pero los transformers siguen dominando. Cualquier reemplazo necesita igualar sus capacidades mientras resuelve sus limitaciones. Nadie lo ha conseguido todavía. ## El artículo en retrospectiva Ocho autores escribieron "Attention Is All You Need." Trabajaban en Google Brain y Google Research. El título era una broma sobre los Beatles. El contenido era serio. ¿Qué hizo que el artículo importara? Simplicidad. Al tirar por la borda la recurrencia y la convolución, quedó una arquitectura más limpia. Las arquitecturas más simples escalan mejor. Las arquitecturas más simples se transfieren mejor. Las arquitecturas más simples duran más. Capacidad de paralelización. Las GPU ya existían. Los conjuntos de datos grandes ya existían. La infraestructura para usar transformers a escala estaba emergiendo justo cuando llegó la arquitectura. Generalidad. La misma arquitectura funcionó para traducción, luego para modelado de lenguaje, luego imágenes, luego audio, luego video, luego plegamiento de proteínas. Una arquitectura para gobernarlas a todas no era el plan. Fue el resultado. Momento. 2017 fue lo bastante tarde como para que la potencia de cómputo hiciera prácticos a los transformers y lo bastante temprano como para que todas sus implicaciones tardaran años en desplegarse. ## Por qué entender esto importa No necesitas entender las puntuaciones de atención para usar Claude o GPT. Pero entender la arquitectura básica te ayuda a entender por qué estos sistemas se comportan como se comportan. Los transformers son máquinas de patrones. Sobresalen encontrando y generando patrones en los datos. No son motores de razonamiento, aunque simulan razonamiento mediante coincidencia de patrones sofisticada. El contexto importa porque los transformers ven simultáneamente todo el contexto que les das. Más contexto suele significar mejores resultados. Un contexto inconsistente confunde la coincidencia de patrones. Existen límites porque el escalado cuadrático no perdona. Los documentos largos chocan con paredes. Las cadenas de razonamiento complejas se rompen. La arquitectura tiene restricciones reales. Y todos los modelos importantes usan la misma base. GPT, Claude y Gemini se ven distintos por fuera. Por dentro, todos son transformers. Entender una arquitectura te ayuda a entenderlas todas. Los ocho investigadores que publicaron "Attention Is All You Need" en 2017 no podían predecir hasta dónde llegaría su arquitectura. Modelos de lenguaje que conversan. Generadores de imágenes que sueñan. Asistentes de código que programan. Nada de eso estaba en el artículo original. Todo eso salió de los transformers. Los artículos de informática más trascendentes no se anuncian como tales. Describen una técnica. Reportan algunas pruebas de referencia. Se publican. Luego lo cambian todo.