--- title: De GPT-1 a GPT-4: cómo un modelo de lenguaje lo cambió todo description: La historia real de la evolución de GPT, desde un artículo de investigación de 2018 hasta la tecnología que está transformando industrias enteras. Saltos técnicos, controversias públicas y qué mejoró de verdad entre versiones. date: February 5, 2026 author: Robert Soares category: ai-fundamentals --- En junio de 2018, OpenAI publicó un artículo que casi nadie notó. El título era árido: "Improving Language Understanding by Generative Pre-Training." El modelo descrito tenía 117 millones de parámetros. Podía completar frases y responder preguntas básicas sobre pasajes de texto. Cinco años después, GPT-4 estaba redactando escritos legales, depurando software complejo y aprobando exámenes profesionales que la mayoría de los humanos suspende. La progresión de ese artículo de 2018 al sistema multimodal de 2023 representa uno de los saltos de capacidad más rápidos de la historia de la computación. Pero el camino no fue recto. Incluyó una controversia sobre la «IA peligrosa» que hoy se ve absurda, una apuesta por el escalado que muchos investigadores creían equivocada y un lanzamiento de producto que nadie predijo que se convertiría en la aplicación de consumo de más rápido crecimiento jamás construida. ## GPT-1: La prueba que nadie vio El artículo original de GPT llegó en un momento tranquilo de la investigación en IA. Los transformers se habían presentado un año antes. Los investigadores todavía estaban averiguando qué podía hacer la arquitectura. La contribución de OpenAI fue conceptual. Mostraron que podías entrenar un modelo de lenguaje con enormes cantidades de texto sin etiquetar y luego afinarlo para tareas específicas con pequeñas cantidades de datos etiquetados. Primero entrenar. Después especializar. Esto importa porque los datos etiquetados son caros. Alguien tiene que leer cada ejemplo y marcar si expresa sentimiento positivo o negativo, si contiene una entidad nombrada, si responde correctamente a una pregunta. Conseguir millones de ejemplos etiquetados cuesta dinero de verdad y lleva tiempo de verdad. El texto sin etiquetar es prácticamente gratis. Internet lo genera constantemente. GPT-1 demostró que podías extraer conocimiento útil del texto en bruto y luego aplicar ese conocimiento a tareas posteriores con un entrenamiento adicional mínimo. El modelo sacó 72.8 en GLUE, una prueba de referencia de comprensión del lenguaje. El récord anterior era 68.9. Una mejora significativa, pero no una que sugiriera que la tecnología fuera a transformar industrias enteras en menos de media década. La mayoría de los investigadores de IA de la época estaban centrados en otros enfoques. GPT-1 era interesante. No era, de forma obvia, algo que fuera a cambiar el mundo. ## GPT-2: La polémica que envejeció mal OpenAI lanzó GPT-2 en febrero de 2019. Tenía 1.5 mil millones de parámetros. Eso es, aproximadamente, trece veces más que GPT-1. El modelo podía generar párrafos coherentes de texto sobre casi cualquier tema. Entonces pasó algo inusual. OpenAI anunció que no publicaría el modelo completo. El motivo: preocupación por el mal uso. La cobertura mediática fue inmediata. ¿Una IA demasiado peligrosa como para publicarla? Los titulares se escribían solos. La reacción de la comunidad técnica fue mixta y, visto con años de distancia, el escepticismo estaba justificado. En [Hacker News](https://news.ycombinator.com/item?id=41159735), el usuario empiko captó lo que muchos terminaron sintiendo: "I remember when GPT-2 was 'too dangerous' to release. I am confused why people still take these clown claims seriously." Otros sospechaban que el encuadre era estratégico. El usuario sva_ señaló: "The GPT2 weights have later been released which made some people suspect the 'too dangerous to release' stuff was mostly hype/marketing." OpenAI terminó publicando el modelo completo en noviembre de 2019, nueve meses después del anuncio inicial. La esperada avalancha de desinformación generada por IA no se materializó. Al menos no por culpa de GPT-2. Lo importante de GPT-2 no es la polémica. La polémica envejeció mal. Lo importante es que OpenAI demostró que el escalado funcionaba. Un modelo trece veces mayor rendía muchísimo mejor. Eso era datos, no teoría. Informaría todo lo que vino después. ## GPT-3: Cuando los escépticos se equivocaron GPT-3 llegó en junio de 2020. Los números eran descomunales. 175 mil millones de parámetros. Entrenado con 570 gigabytes de texto. El modelo era más de cien veces más grande que GPT-2. Muchos investigadores pensaban que era un despilfarro. Los modelos más grandes son caros de entrenar y caros de ejecutar. La suposición era que los rendimientos se irían agotando. No puedes seguir haciendo las cosas más grandes y esperar mejoras proporcionales. GPT-3 demostró que esa suposición era falsa. El modelo mostró "few-shot learning" (aprendizaje con pocos ejemplos) de formas que sorprendieron incluso a sus creadores. Podías darle unos pocos ejemplos de una tarea, y descubría el patrón sin ningún ajuste fino. Enséñale tres ejemplos de frases en inglés traducidas al francés, y traducía la cuarta. Enséñale tres preguntas con respuestas, y respondía la cuarta. Cuando OpenAI abrió la API a los desarrolladores, las reacciones se dividieron con fuerza. En [Hacker News](https://news.ycombinator.com/item?id=23489653), el usuario denster captó la emoción: "we were just _blown away_. Very cool!!" Pero no a todo el mundo le impresionó. El usuario Barrin92 replicó: "All GPT-3 does is generate text...it doesn't actually understand anything." El CEO de OpenAI, Sam Altman, intentó moderar las expectativas. "The GPT-3 hype is way too much," escribió. "It's impressive but it still has serious weaknesses." Tenía razón sobre las debilidades. El modelo alucinaba con seguridad. No podía hacer aritmética básica de forma fiable. No tenía memoria persistente entre sesiones. A veces generaba contenido tóxico o sesgado. Pero la apuesta por el escalado había salido bien. Los modelos más grandes eran modelos más inteligentes. Esta idea impulsaría los tres años siguientes de desarrollo en IA y miles de millones de dólares de inversión. ## El ingrediente que faltaba: hacerlo fácil de usar GPT-3 existió durante dos años y medio antes de que se lanzara ChatGPT. El modelo subyacente no era dramáticamente distinto. Lo que cambió fue la interfaz. GPT-3 requería una clave de API. Tenías que saber qué era un prompt. Tenías que entender que el modelo necesitaba contexto y ejemplos para rendir bien. La barrera de entrada era real. ChatGPT eliminó todo eso. Gratis. Conversacional. Optimizado mediante aprendizaje por refuerzo con retroalimentación humana para ser útil e inofensivo. Tú solo escribías y respondía. Cinco días después del lanzamiento, un millón de usuarios. Dos meses después, cien millones. Nada en la tecnología de consumo había crecido tan rápido. El modelo que la gente podía usar de verdad cambió todo sobre cómo la gente pensaba la IA. Antes de ChatGPT, la IA era algo con lo que trabajaban especialistas. Después de ChatGPT, era algo por lo que tu tía te preguntaba en Acción de Gracias. Esto importa para entender GPT-4. El salto tecnológico fue real, pero el salto de adopción vino de hacer la IA avanzada accesible para la gente normal, no solo de la capacidad en bruto. ## GPT-4: El salto que demostró el punto OpenAI anunció GPT-4 el 14 de marzo de 2023. El modelo ahora podía procesar imágenes además de texto. Podías subir una foto y hacerle preguntas. Podías enseñarle un diagrama y pedirle una explicación. Las mejoras de capacidad fueron sustanciales. GPT-4 aprobó el examen de abogacía con una puntuación en el percentil 90. GPT-3.5 había quedado en el percentil 10. Eso no es una mejora incremental. Es un cambio cualitativo de capacidad. En [Hacker News](https://news.ycombinator.com/item?id=35154527), el usuario hooande señaló lo que entusiasmó a los desarrolladores: "The ability to dump 32k tokens into a prompt (25.000 words) seems like it will drastically expand the reasoning capability." La adopción empresarial se aceleró de inmediato. Stripe integró GPT-4 para resumir sitios web de empresas para atención al cliente. Duolingo lo incorporó en un nuevo nivel de suscripción. Morgan Stanley creó un sistema para dar servicio a analistas financieros. Khan Academy desarrolló un tutor automatizado. La capacidad multimodal era genuinamente nueva. Los modelos de lenguaje anteriores procesaban solo texto. GPT-4 podía mirar una fotografía y describir qué estaba pasando, identificar objetos, leer texto en imágenes y razonar sobre relaciones visuales. OpenAI retuvo detalles técnicos sobre la arquitectura y los datos de entrenamiento de GPT-4. La empresa que una vez temió que GPT-2 fuera demasiado peligroso para publicarse se había vuelto mucho más hermética con una tecnología mucho más potente. La ironía no pasó desapercibida para los observadores. ## Qué cambió realmente entre versiones La progresión de GPT-1 a GPT-4 implicó tres cambios fundamentales. **Escala**. GPT-1 tenía 117 millones de parámetros. El número de parámetros de GPT-4 nunca se confirmó oficialmente, pero estimaciones creíbles lo sitúan por encima de un billón. Eso es, aproximadamente, un aumento de diez mil veces en seis años. Cada salto de escala produjo capacidades que no se podían predecir a partir de modelos más pequeños. **Datos de entrenamiento**. GPT-1 se entrenó con libros. GPT-3 añadió Common Crawl, un rastreo masivo de la web. Los datos de entrenamiento de GPT-4 siguen sin divulgarse, pero el modelo muestra conocimientos que solo podrían venir de una exposición extensa a código, artículos académicos y dominios especializados. **Técnicas de alineación**. Los modelos de lenguaje en crudo optimizan para la predicción. Generan el texto que parece estadísticamente más probable dado el prompt. El aprendizaje por refuerzo a partir de retroalimentación humana, introducido entre GPT-3 y ChatGPT, enseñó a los modelos a optimizar por ser útiles e inofensivos en su lugar. Esto hizo que la tecnología fuera utilizable por gente normal que no tenía ni idea de cómo escribir prompts. Los cambios arquitectónicos fueron menos dramáticos de lo que se suele asumir. GPT-4 sigue usando transformers. El mecanismo de atención se reconoce del artículo de 2017 que lo inició todo. La revolución vino de la escala, los datos y la metodología de entrenamiento, no de innovaciones arquitectónicas fundamentales. ## Los números cuentan la historia Esto es lo que podía hacer cada versión, medido por las pruebas que importan: GPT-1 sacó 72.8 en GLUE. Superó el récord anterior de 68.9. Progreso significativo. No transformador. GPT-2 generaba texto lo bastante coherente como para engañar a lectores casuales. No podía seguir instrucciones de forma fiable ni mantener el contexto a lo largo de conversaciones largas. GPT-3 introdujo el few-shot learning. Dale ejemplos y averigua el patrón. Esta fue la primera versión que se sintió genuinamente útil para trabajo real, aunque las salidas requerían mucha edición. GPT-4 aprobó exámenes profesionales. Examen de abogacía: percentil 90. Verbal del GRE: percentil 90. Exámenes AP en varias asignaturas: notas de aprobado. Esta fue la primera versión que, de forma consistente, superó al humano promedio en pruebas cognitivas. La brecha entre la "investigación interesante" y la "herramienta útil" ocurrió en algún punto entre GPT-2 y GPT-3. La brecha entre la "herramienta útil" y el "posible reemplazo de parte del trabajo cognitivo humano" ocurrió en algún punto entre GPT-3 y GPT-4. ## Por qué GPT-2 recibe más atención que GPT-1 Fíjate en que GPT-1 apenas aparece en la mayoría de las historias. Nadie debate si GPT-1 debería haberse publicado. Nadie recuerda qué pensó cuando vio por primera vez resultados de GPT-1. GPT-2 es distinto. El encuadre de "too dangerous" creó una narrativa. La gente tenía opiniones. La polémica generó cobertura que el logro técnico por sí solo no habría tenido. Esto importa porque revela algo sobre cómo la tecnología entra en la conciencia pública. GPT-1 fue importante por lo que demostró técnicamente. GPT-2 fue importante por el debate que inició. GPT-3 fue importante por ser útil. GPT-4 fue importante por ser lo bastante bueno como para que la gente empezara a preocuparse por los empleos. Cada versión importó por razones distintas. Entender esas razones te ayuda a entender qué es lo que de verdad impulsa la adopción de la IA y la preocupación. ## El patrón que vale la pena entender Cada versión de GPT siguió un patrón. La capacidad técnica saltaba. La reacción pública se dividía entre entusiasmo y escepticismo. Los daños previstos o bien no se materializaban o se materializaban de formas inesperadas. Aparecían aplicaciones reales que nadie anticipó. Los miedos a las noticias falsas alrededor de GPT-2 ahora parecen casi entrañables. El modelo que era "too dangerous to release" queda superado con facilidad por sistemas a los que cualquiera puede acceder gratis. Las opiniones de "GPT-3 is not that impressive" envejecieron mal. El modelo que algunos despreciaban como un autocompletado glorificado se convirtió en la base de productos que cientos de millones de personas usan a diario. Las preocupaciones sobre GPT-4 siguen sin resolverse. Que represente un avance hacia una IA beneficiosa o un paso hacia sistemas que no podemos controlar depende de a quién le preguntes y del horizonte temporal que consideres. Lo que parece claro es que cada versión hizo que la IA fuera más capaz y más accesible. La tecnología que empezó como una curiosidad de investigación en 2018 ahora está integrada en cómo trabajan millones de personas. La brecha entre GPT-1 y GPT-4 es la brecha entre una prueba de concepto académica y la infraestructura de la que dependen las organizaciones. ## Qué viene después Entender esta progresión importa porque continúa. GPT-5 existe. Modelos competidores de Anthropic, Google y Meta han empujado las capacidades aún más. El ritmo de mejora no muestra señales de desacelerarse. El historial sugiere que apostar contra mejoras de capacidad no es inteligente. El historial también sugiere que los impactos, tanto positivos como negativos, diferirán de las predicciones. La única predicción que se ha mantenido de forma consistente: la próxima versión será mejor que la anterior. Cuánto mejor, y qué significa eso para cómo trabajamos y vivimos, sigue siendo genuinamente desconocido. Seis años nos llevaron de un artículo que nadie leyó a una tecnología que el 10% de los adultos usa semanalmente. Los próximos seis años probablemente traerán cambios igual de drásticos. Entender de dónde venimos es la mejor preparación para averiguar hacia dónde vamos.