--- title: Leyes de escalado: la fórmula que volvió predecible a la IA description: Cómo los investigadores descubrieron que el rendimiento de la IA sigue patrones matemáticos. La ciencia detrás de por qué los modelos mejoraron y los debates sobre qué viene después. date: February 5, 2026 author: Robert Soares category: ai-fundamentals --- En enero de 2020, un equipo de OpenAI publicó un artículo con un título seco: "Scaling Laws for Neural Language Models." El artículo en sí estaba cargado de ecuaciones y gráficos que casi nadie leería. Pero las implicaciones fueron descomunales. Los investigadores, liderados por Jared Kaplan, habían descubierto algo que parecía casi demasiado ordenado para ser verdad: el rendimiento de la IA sigue patrones matemáticos que se mantienen a lo largo de siete órdenes de magnitud. No correlaciones toscas. No tendencias aproximadas. Leyes de potencia con curvas predecibles. Este descubrimiento cambió cómo operan los laboratorios de IA, hacia dónde fluyen miles de millones de dólares y qué futuros parecen posibles. ## El hallazgo central El rendimiento mejora de forma predecible. Esa frase contiene una afirmación extraordinaria que el artículo de OpenAI de 2020 logró sustentar con experimentación extensa. Los investigadores entrenaron docenas de modelos de lenguaje de distintos tamaños, con distintas cantidades de datos y usando distintas cantidades de cómputo. Luego graficaron los resultados. Lo que emergió fue una familia de curvas suaves que seguían relaciones matemáticas precisas. Según el paper original de Kaplan et al., "the loss scales as a power-law with model size, dataset size, and the amount of compute used for training." Esta relación se mantuvo en modelos que iban de millones a miles de millones de parámetros. ¿Duplicas tu presupuesto de cómputo? El error de predicción del modelo baja una cantidad consistente y predecible. ¿Lo duplicas otra vez? La misma mejora proporcional. Las curvas eran suaves hasta el límite. Así no era como nadie esperaba que funcionara el aprendizaje automático. La mayoría asumía que habría rendimientos decrecientes, mesetas, acantilados inesperados donde las cosas dejarían de funcionar. En cambio, los gráficos mostraban una mejora implacable y predecible. ## Por qué esto lo cambió todo Antes de las leyes de escalado, entrenar un modelo de IA de frontera era como lanzar un cohete sin saber si tenías suficiente combustible para llegar a órbita, y no te enterabas hasta el final de una corrida de entrenamiento de meses que costaba decenas de millones de dólares. Después de las leyes de escalado, los laboratorios podían predecir resultados. ¿Quieres saber aproximadamente cuán capaz será tu próximo modelo? Mira tu presupuesto de cómputo y consulta las curvas. ¿Planeas tu recolección de datos? Las leyes te dicen cuánto necesitas. ¿Decides si construir un clúster más grande? Puedes estimar las ganancias de capacidad. La IA se volvió, en cierto sentido, un problema de ingeniería más que un misterio científico. No del todo, no completamente, pero lo suficiente como para que las apuestas de miles de millones parecieran abordables. Las implicaciones se propagaron hacia afuera. Las empresas podían levantar capital basándose en capacidades proyectadas del modelo. Los fabricantes de hardware podían estimar demanda. Los investigadores podían planear hojas de ruta de varios años. Las leyes de escalado le dieron a toda la industria un marco de planificación que nunca había tenido. ## La corrección Chinchilla Las primeras leyes de escalado no estaban del todo bien. El artículo de Kaplan sugería que el tamaño del modelo importaba más que el tamaño del conjunto de datos. Si tenías cómputo limitado, gástatelo en un modelo más grande. GPT-3, con sus 175 mil millones de parámetros entrenados con "solo" 300 mil millones de tokens, reflejaba esa filosofía. En marzo de 2022, DeepMind publicó lo que se conoció como el artículo de Chinchilla. Entrenaron más de 400 modelos de lenguaje y encontraron algo distinto. El enfoque óptimo era escalar el tamaño del modelo y los datos de entrenamiento a la vez, más o menos en proporción. Su conclusión: los modelos existentes estaban subentrenados. Un modelo más pequeño entrenado con más datos podía superar a uno más grande entrenado con menos. Chinchilla lo demostró. Con 70 mil millones de parámetros (menos de la mitad de GPT-3) entrenados con 1.4 billones de tokens (casi cinco veces los datos de GPT-3), igualó o superó al modelo mucho más grande. La nueva regla era aproximadamente 20 tokens por parámetro para un entrenamiento óptimo en cómputo. Esta proporción se volvió un punto de referencia que todo laboratorio de IA se sabía de memoria. ## La realidad práctica de la escala Números como "175 mil millones de parámetros" y "1.4 billones de tokens" son difíciles de dimensionar. Déjame volverlos concretos. Entrenar GPT-3 requirió aproximadamente 3.14 x 10^23 operaciones de punto flotante. Eso son 314.000,000.000,000.000,000.000 cálculos individuales. La corrida de entrenamiento supuestamente costó entre $4 millones y $12 millones solo en cómputo. El costo de entrenamiento de GPT-4 se ha estimado en más de $100 millones. Los requisitos de cómputo crecen más rápido que las mejoras en la eficiencia del hardware. Esto crea una dinámica particular en la industria. En [Hacker News](https://news.ycombinator.com/item?id=46522308), el comentarista bicepjai observó: "as progress depends more on massive training runs, it becomes capital-intensive, less reproducible and more secretive; so you get a compute divide and less publication." Los requisitos de capital filtran quién puede participar. Un laboratorio universitario no puede competir en escala bruta con una empresa que puede gastar $100 millones en una sola corrida de entrenamiento. Las leyes de escalado crearon un mundo donde el progreso exige recursos que pocos poseen. ## Lo que dicen las leyes (y lo que no dicen) Las leyes de escalado te dicen que la pérdida disminuye de forma predecible. La pérdida, en este contexto, significa qué tan equivocado está el modelo al predecir la siguiente palabra. Menor pérdida significa mejores predicciones. Pero aquí está lo que las leyes no te dicen: qué puede hacer realmente el modelo. La relación entre pérdida y capacidades es compleja. Un modelo puede mejorar gradualmente al predecir texto y, de pronto, adquirir la capacidad de resolver problemas de matemáticas que antes no podía resolver. Estas "capacidades emergentes" aparecieron en umbrales de escala específicos que las leyes no predijeron. El aprendizaje con pocos ejemplos (few-shot), donde un modelo aprende tareas nuevas a partir de un puñado de ejemplos, emergió alrededor de la marca de 100 mil millones de parámetros. El razonamiento de cadena de pensamiento apareció a escalas similares. Estas capacidades no eran solo mejoras cuantitativas sobre habilidades existentes. Eran cualitativamente nuevas. Las leyes de escalado describen una curva suave. La realidad mostró saltos súbitos. ## El problema de la investigación abierta No todo el mundo celebró el paradigma del escalado. En [Hacker News](https://news.ycombinator.com/item?id=46522308), el investigador gdiamos comentó: "I especially agree with your point that scaling laws really killed open research. That's a shame and I personally think we could benefit from more research." La preocupación es estructural. Si el progreso requiere cómputo masivo, solo los laboratorios bien financiados pueden avanzar. Si solo los laboratorios bien financiados avanzan, la mayoría de los investigadores no puede contribuir a la frontera. Los departamentos académicos de ciencias de la computación, históricamente la fuente de ideas rompedoras, quedan al margen. gdiamos continuó: "If scaling is predictable, then you don't need to do most experiments at very large scale. However, that doesn't seem to stop researchers from starting there." Hay algo irónico aquí. En teoría, las leyes de escalado te permiten predecir resultados a gran escala a partir de experimentos a pequeña escala. En la práctica, los incentivos empujan a todos hacia la escala de todos modos. No puedes publicar sobre capacidades al nivel de GPT-5 si no tienes recursos al nivel de GPT-5. ## Más allá del preentrenamiento: nuevas fronteras Las leyes de escalado originales se centraban en el preentrenamiento, la fase inicial en la que un modelo aprende a predecir texto. Pero la cadena de desarrollo de IA tiene más etapas. Investigación reciente ha identificado al menos tres regímenes de escalado distintos: **Escalado en preentrenamiento** sigue las leyes originales de Kaplan y Chinchilla. Modelos más grandes entrenados con más datos predicen texto mejor. **Escalado en postentrenamiento** cubre el ajuste fino y la alineación. La relación entre el cómputo gastado en retroalimentación humana y el comportamiento del modelo sigue sus propios patrones, distintos del preentrenamiento. **Escalado en inferencia** es el descubrimiento más reciente. El modelo o1 de OpenAI demostró que dejar que un modelo "think longer" en tiempo de inferencia mejora el rendimiento de razonamiento. Esto sugiere otra dimensión donde más cómputo produce mejores resultados. La existencia de múltiples leyes de escalado implica rutas de mejora continuas incluso si el escalado en preentrenamiento se ralentiza. Un modelo puede, potencialmente, mejorar mediante un postentrenamiento más sofisticado o tomándose más tiempo para razonar los problemas. ## El muro de datos La corrección Chinchilla creó un nuevo problema. Si el entrenamiento óptimo requiere escalar los datos junto con el tamaño del modelo, y los modelos de frontera actuales ya consumieron la mayor parte del texto de alta calidad en internet, ¿de dónde sale el siguiente conjunto de datos de entrenamiento? Las estimaciones sugieren que la web indexada contiene alrededor de 510 billones de tokens. Suena a mucho hasta que consideras que la mayor parte es de baja calidad, repetitiva o directamente basura. El texto de mayor calidad, el tipo que de verdad enseña a un modelo a razonar bien, es una fracción pequeña. Los enfoques actuales frente al muro de datos incluyen: **Datos sintéticos**: hacer que la IA genere datos de entrenamiento para la siguiente generación de IA. Esto funciona hasta cierto punto, pero conlleva riesgos de colapso del modelo si se hace sin cuidado. **Expansión multimodal**: entrenar con imágenes, video y audio además de texto abre nuevas fuentes de datos. El mundo contiene mucha más información visual que texto escrito. **Curación de mayor calidad**: quizá el problema no sea la cantidad sino la calidad. Un filtrado mejor podría extraer más señal de aprendizaje de los datos existentes. **Creación de datos nuevos**: algunos laboratorios, según se reporta, están pagando por contenido propietario o creándolo específicamente para entrenamiento. Nada de esto resuelve claramente el problema. El muro de datos sigue siendo una de las restricciones centrales para el escalado continuo. ## El debate sobre los rendimientos decrecientes A finales de 2024 y durante 2025, surgieron reportes de que las mejoras en los modelos de frontera se estaban ralentizando. Los modelos más recientes no estaban dando saltos tan dramáticos como las generaciones anteriores. Algunos interpretaron esto como la muerte del escalado. La fiesta se acabó. Las leyes habían llegado a su límite. Otros señalaron que las leyes de escalado originales predijeron rendimientos decrecientes desde el principio. Las curvas son logarítmicas, no exponenciales. Cada duplicación de cómputo compra una mejora absoluta menor que la anterior. Siempre fue el patrón esperado. El debate gira en torno a una pregunta que nadie puede responder de forma definitiva: ¿estamos viendo la desaceleración esperada de una mejora logarítmica, o un techo fundamental de lo que el escalado puede lograr? Distintos observadores leen los mismos datos de maneras distintas. El progreso continúa, pero ¿a qué ritmo? ¿Y ese ritmo alcanza para las capacidades que la gente quiere? ## Predicciones que se cumplieron (y las que no) Las leyes de escalado hicieron predicciones específicas. Algunas resistieron. Otras no. **Se cumplieron**: la relación básica entre cómputo y pérdida se ha mantenido notablemente consistente entre distintas arquitecturas y enfoques. Las curvas fundamentales funcionan. **Se cumplieron a medias**: la proporción óptima de Chinchilla resultó óptima para la eficiencia de entrenamiento, pero no para la eficiencia de despliegue. Modelos modernos como Llama 3 entrenan con 200 tokens por parámetro, muy por encima del óptimo de Chinchilla, porque los costos de inferencia importan más que los costos de entrenamiento en productos usados a escala. **No se cumplieron**: la predicción del paper original de Kaplan de que el tamaño del modelo importa más que el tamaño de los datos simplemente era incorrecta. Chinchilla lo demostró de manera decisiva. **No está claro**: si el escalado sigue produciendo capacidades útiles más allá de las escalas actuales sigue sin resolverse. Las leyes predicen una reducción continua de la pérdida, pero no si esa reducción se traduce en capacidades que a los humanos les importen. ## Lo que el escalado no puede decirte Las leyes de escalado guardan silencio sobre varias preguntas críticas. No te dicen si un modelo va a alucinar. Reducir la pérdida no garantiza precisión factual. No te dicen si un modelo será seguro o estará alineado con valores humanos. Un modelo puede predecir texto muy bien y, aun así, ser útil, inofensivo o peligroso. No te dicen si un modelo será bueno en una tarea específica. Reducir la pérdida general no garantiza rendimiento en el problema particular que te importa. No te dicen cuándo emergerán capacidades cualitativamente nuevas. Las leyes describen curvas suaves, pero las capacidades aparecen de forma discontinua. Estas brechas importan. Significan que, incluso con un conocimiento perfecto de las leyes de escalado, no puedes predecir por completo cómo será un modelo. Las leyes acotan el espacio de posibilidades sin determinarlo. ## El rompecabezas filosófico Hay algo filosóficamente extraño en las leyes de escalado. ¿Por qué la predicción del lenguaje debería seguir patrones matemáticos tan limpios? Los datos de entrenamiento son una instantánea desordenada e inconsistente de la escritura humana. La arquitectura es una serie de decisiones de ingeniería. El proceso de optimización es estocástico. Y, aun así, el resultado sigue leyes de potencia a lo largo de siete órdenes de magnitud. Algunos ven esto como evidencia de que la inteligencia tiene estructura matemática esperando ser descubierta. Otros lo ven como una coincidencia sospechosa que quizá no se mantenga para siempre. Otros sostienen que simplemente refleja las propiedades estadísticas del lenguaje en sí. Las leyes de escalado funcionan. Por qué funcionan sigue siendo realmente incierto. ## En qué punto estamos Las leyes de escalado le dieron a la industria de la IA algo que necesitaba desesperadamente: un marco de planificación. Hicieron posibles inversiones de miles de millones, hojas de ruta de varios años y predicciones confiadas sobre capacidades futuras. Pero los marcos pueden volverse prisiones. El enfoque en el escalado puede haber desplazado otros caminos. El cómputo masivo se volvió la solución por defecto incluso cuando experimentos más pequeños podrían haber respondido las mismas preguntas. La investigación académica quedó marginada. Las arquitecturas alternativas recibieron menos atención. Ahora, a medida que el escalado en preentrenamiento muestra señales de tensión, la industria está descubriendo otros caminos. Escalado en inferencia. Datos sintéticos. Mejores algoritmos de entrenamiento. Optimización postentrenamiento. Estos enfoques existían desde siempre, pero vivían a la sombra del escalado. Las leyes de escalado fueron un descubrimiento sobre cómo funciona la IA. También fueron una elección sobre cómo perseguir el progreso. Si esa elección fue óptima, si hoy estaríamos más adelantados con enfoques más diversos, es una pregunta que nadie puede responder con certeza. Lo que sí sabemos: las curvas siguen inclinándose hacia abajo. El cómputo sigue ayudando. Las leyes siguen en pie, aunque las ganancias sean más difíciles de capturar. El próximo avance podría venir de más escala, o de algo completamente distinto.