--- title: ¿Qué es un LLM? Guía en español claro sobre los grandes modelos de lenguaje description: Sin jerga ni humo. Aprende qué hacen realmente los grandes modelos de lenguaje, por qué predecir la siguiente palabra crea una IA sorprendentemente capaz y dónde se queda corta esta tecnología. date: February 5, 2026 author: Robert Soares category: ai-fundamentals --- Tu teléfono predice palabras. Aprende tus hábitos. Escribe "nos vemos" y sugiere "mañana" porque ya enviaste esa secuencia cien veces. Ahora imagina esa misma idea aplicada a prácticamente todo lo que la humanidad ha escrito, todo lo disponible en el internet público, entrenada en hardware que cuesta millones de dólares y procesa información de formas que fuerzan los límites de lo que creíamos que una computadora podía hacer. Eso es un LLM. Large Language Model. Una máquina entrenada para predecir qué viene después en una secuencia de texto, funcionando a una escala que transforma un mecanismo simple en algo que casi parece conversación. El nombre se descompone fácil. "Large" se refiere al tamaño, tanto de los datos de entrenamiento (billones de palabras) como del propio modelo (miles de millones a billones de parámetros ajustables). "Language Model" describe la función central: modelar patrones del lenguaje humano para predecir continuaciones probables de cualquier texto. ## El poder sorprendente de adivinar la siguiente palabra Esto es lo que hace que los LLM sean raros, fascinantes y a veces inquietantes: no entienden el lenguaje como tú lo entiendes. Predicen patrones. Cuando le pides a un LLM "escribe un correo profesional para rechazar una reunión", el modelo no está pensando en reuniones, profesionalismo ni en las limitaciones de tu calendario. Está calculando probabilidades. Dados estos tokens de entrada, ¿qué token es más probable que venga después? ¿Y cuál después de ese? El modelo repite esta predicción miles de veces hasta generar una respuesta completa que, sorprendentemente a menudo, se parece exactamente a algo que escribiría una persona. Miguel Grinberg, un desarrollador de software que ha escrito extensamente sobre LLM, lo resume sin rodeos en [su explicación técnica](https://blog.miguelgrinberg.com/post/how-llms-work-explained-without-math): "All they can do is take some text you provide as input and guess what the next word (or more accurately, the next token) is going to be." Eso es todo. Predicción. Estadística. Detección de patrones a una escala que hace que el resultado parezca magia. Pero ¿por qué la mera predicción produce párrafos coherentes? ¿Por qué adivinar la siguiente palabra termina en algo que responde preguntas, escribe código, explica conceptos y de vez en cuando te hace reír? La respuesta está en lo que exige predecir bien. Para acertar qué palabra viene después en cualquier oración posible, necesitas haber absorbido una cantidad enorme de información sobre cómo funciona el lenguaje, cómo se conectan las ideas, cómo las personas estructuran argumentos, cuentan historias y expresan emociones. La compresión necesaria para predecir con precisión obliga al modelo a desarrollar representaciones internas que capturan algo parecido a la comprensión, aunque el mecanismo de fondo siga siendo fundamentalmente distinto de la cognición humana. ## Cómo funciona la maquinaria Escribes una pregunta. El modelo responde en segundos. ¿Qué pasa en medio? Primero, tu texto se convierte en tokens. Un token es un fragmento de palabra, más o menos tres o cuatro caracteres en promedio. La palabra "comprensión" podría convertirse en dos o tres tokens. Los espacios y la puntuación se vuelven tokens. Todo se descompone en estas unidades discretas porque las redes neuronales trabajan con números, no con letras. Esos tokens se transforman en vectores, que son listas largas de números que codifican significado y relaciones. Cada palabra o fragmento de palabra se vuelve un punto en un espacio matemático donde los conceptos similares se agrupan. "Rey" y "reina" quedan cerca en ese espacio. También "excelente" y "sobresaliente". El modelo aprendió esas posiciones observando qué palabras aparecen en contextos parecidos dentro de sus datos de entrenamiento. Luego llega el mecanismo de atención, el avance que hizo posibles los LLM modernos. Antes de 2017, los modelos de lenguaje procesaban palabras de una en una y en secuencia, lo que significaba que les costaba conectar ideas alejadas dentro de una oración. La arquitectura transformer, introducida en el paper ["Attention Is All You Need"](https://arxiv.org/abs/1706.03762), lo cambió todo. Ahora el modelo puede mirar todas las palabras al mismo tiempo y determinar cuáles se relacionan con cuáles, sin importar la distancia. Como explica [Understanding AI](https://www.understandingai.org/p/large-language-models-explained-with), las palabras "look around" para encontrar otras palabras con contexto relevante y compartir información entre sí. Este proceso de atención se repite en muchas capas. Cada capa refina la comprensión del modelo sobre las relaciones entre tokens. En la capa final, el modelo construyó una representación rica de toda la entrada y puede calcular distribuciones de probabilidad sobre todos los posibles tokens siguientes. El modelo elige un token. Lo añade a la secuencia. Vuelve a ejecutar todo para elegir el siguiente token. Repite hasta que la respuesta está completa. Por eso los LLM pueden manejar oraciones complejas y anidadas que habrían confundido a sistemas más antiguos. "El informe que preparó para el equipo ejecutivo el analista que contrataron el mes pasado necesita revisión" no representa ningún problema. El modelo sigue que "necesita" se conecta con "informe" a través de todas esas palabras intermedias. ## Tokens, parámetros y ventanas de contexto Hay tres términos que aparecen todo el tiempo. Esto es lo que significan. **Tokens** son las unidades atómicas con las que trabaja el modelo. No son exactamente palabras. No son exactamente caracteres. Algo en medio. Una frase como "Me encantan las galletas con chispas de chocolate" podría convertirse en cinco o seis tokens. Una página de texto puede ser 300 tokens. Esto importa porque los modelos cobran por token y porque hay límites de cuántos tokens puede procesar un modelo a la vez. **Parámetros** son los números ajustables dentro del modelo que se afinan durante el entrenamiento. Piensa en ellos como perillas y controles que determinan cómo responde el modelo ante cualquier entrada. GPT-4 supuestamente tiene alrededor de [1.8 trillion parameters](https://en.wikipedia.org/wiki/GPT-4). Más parámetros generalmente implica más capacidad, pero también más costo computacional. La relación no es lineal, y los investigadores siguen encontrando formas de obtener más rendimiento con menos parámetros. **Ventana de contexto** se refiere a cuántos tokens puede considerar el modelo a la vez, incluyendo tanto tu entrada como su salida. Los modelos viejos tenían ventanas pequeñas, quizá unos pocos miles de tokens. Modelos modernos como [Llama 4 Scout](https://ai.meta.com/blog/llama-4-multimodal-intelligence/) admiten hasta 10 millones de tokens, suficiente para procesar libros completos o bases de código enteras en una sola conversación. Ventanas de contexto más grandes significan que el modelo puede mantener conversaciones coherentes durante intercambios más largos y analizar documentos más extensos. ## Entrenamiento: de dónde sale el conocimiento Los LLM aprenden de texto. Cantidades enormes de texto. El proceso de entrenamiento funciona mostrando al modelo miles de millones de ejemplos y pidiéndole que prediga qué viene después. Cuando se equivoca, el modelo ajusta sus parámetros un poco. Repite este proceso a lo largo de billones de tokens de datos de entrenamiento, usando clústeres de cómputo que cuestan decenas de millones de dólares para operar, y el modelo va desarrollando gradualmente la capacidad de predecir continuaciones para prácticamente cualquier texto que le des. Los datos de entrenamiento suelen incluir libros, sitios web, artículos académicos, repositorios de código, foros y otros textos disponibles públicamente. La composición exacta importa. Modelos entrenados con más código escriben mejor código. Modelos entrenados con datos más recientes tienen conocimiento más actual. Modelos entrenados con datos más diversos manejan un rango más amplio de solicitudes. Después de esta fase inicial de "preentrenamiento", la mayoría de los modelos comerciales pasan por fases adicionales. El ajuste fino con ejemplos seleccionados enseña al modelo a seguir instrucciones y evitar salidas dañinas. El aprendizaje por refuerzo con retroalimentación humana ayuda al modelo a producir respuestas que las personas califican como útiles y apropiadas. Estos pasos adicionales moldean la personalidad y las capacidades del modelo más allá de la predicción pura. ## Lo que nos dicen los límites Las limitaciones de los LLM revelan lo que realmente son. Alucinan. Generan información falsa con total confianza. Un abogado presentó de forma infame un escrito legal redactado por ChatGPT que citaba casos judiciales inexistentes. El modelo había predicho nombres de casos y citas que sonaban plausibles porque eso es lo que suelen incluir los escritos legales, pero estaba inventando. ¿Por qué pasa esto? Porque el modelo predice patrones, no consulta una base de datos de hechos verificados. Cuando los datos de entrenamiento tienen huecos o cuando el prompt crea condiciones inusuales, el modelo rellena los espacios con lo que parece estadísticamente probable. No tiene ningún mecanismo para saber si sus predicciones corresponden con la realidad. Como señaló el usuario Leftium en una [discusión de Hacker News](https://news.ycombinator.com/item?id=40393704) sobre cómo explicar los LLM: "Autocomplete seems to be the simplest way of explaining it is just fancy pattern recognition." El reconocimiento de patrones falla cuando el patrón requiere conocimiento real del mundo y no solo conocimiento de cómo suele verse el texto. No pueden verificar. Un LLM no puede comprobar si sus afirmaciones son verdaderas porque no tiene acceso a la realidad externa más allá de lo que había en sus datos de entrenamiento. No puede buscar algo. No puede llamar a una API para confirmar un hecho. Solo puede predecir qué palabras suelen seguir a otras palabras. Son inconsistentes. Haz la misma pregunta dos veces y obtendrás respuestas distintas. Esto no es un error. Se introduce aleatoriedad deliberadamente para evitar respuestas aburridamente predecibles. Pero eso significa que no puedes depender de un LLM para que te dé exactamente la misma respuesta dos veces, lo que complica cualquier flujo de trabajo donde la consistencia importa. Tienen fechas de corte de conocimiento. La mayoría de los modelos se entrenan con datos hasta cierta fecha. Todo lo posterior es desconocido salvo que tú lo proporciones explícitamente o que el modelo tenga capacidades de búsqueda web. Los modelos GPT-5.2 tienen una fecha de corte en agosto de 2025, [according to OpenAI](https://openai.com/index/introducing-gpt-5-2/). Los eventos posteriores a esa fecha simplemente no existen para el modelo. Les cuesta la matemática y la lógica. Puede parecer contraintuitivo viendo cuánta capacidad muestran en otras áreas, pero se desprende directamente del mecanismo de predicción. Las matemáticas requieren cálculo preciso, y los LLM están optimizados para continuar de forma plausible, no para computar con exactitud. Pueden imitar razonamientos matemáticos que vieron en los datos de entrenamiento, pero no están calculando de verdad. ## Un tipo distinto de inteligencia Andrej Karpathy, uno de los investigadores que ayudó a construir LLM modernos en OpenAI y Tesla, ofreció una perspectiva aclaradora [citada en el blog de Simon Willison](https://simonwillison.net/2024/Sep/14/andrej-karpathy/): "It's a bit sad and confusing that LLMs ('Large Language Models') have little to do with language; It's just historical. They are highly general purpose technology for statistical modeling of token streams. A better name would be Autoregressive Transformers or something. They don't care if the tokens happen to represent little text chunks. It could just as well be little image patches, audio chunks, action choices, molecules, or whatever." La implicación es profunda. Los LLM no son máquinas de lenguaje. Son máquinas de patrones que da la casualidad de que funcionan extremadamente bien con lenguaje porque el lenguaje tiene una estructura estadística rica y aprendible. Pero la misma arquitectura puede modelar cualquier dato secuencial. Eso explica por qué los LLM ahora pueden manejar imágenes, audio y video junto con texto. El mecanismo subyacente es lo bastante abstracto como para aplicarse a cualquier dominio donde existan patrones y donde predecir lo que viene después tenga sentido. ## Por qué esto te importa Si trabajas en cualquier campo que implique escritura, análisis, comunicación o procesamiento de información, los LLM ya están cambiando lo que es posible. Redactan. Resumen. Hacen lluvia de ideas. Traducen. Explican. Escriben código. Analizan documentos. Hacen estas cosas de manera imperfecta, con matices, y requieren supervisión humana. Pero las hacen rápido, y la velocidad cambia los flujos de trabajo. Un primer borrador que tomaba dos horas ahora toma dos minutos. Un resumen de documento que exigía leer cincuenta páginas ahora exige leer dos párrafos. Una sesión de lluvia de ideas que producía diez ideas ahora produce cien, y aunque noventa sean mediocres, esas diez buenas adicionales pueden incluir algo que jamás se te habría ocurrido. La trampa es entender con qué estás trabajando. Un LLM no es un asistente con conocimiento que casualmente está disponible a toda hora. Es un motor de predicción que genera texto plausible. A veces ese texto plausible es exactamente lo que necesitas. A veces está equivocado con total seguridad. Saber la diferencia exige que entiendas el mecanismo. ## La tecnología no se detiene Lo que es cierto en enero de 2026 se verá distinto en diciembre. Los modelos son más rápidos. Son más baratos. Manejan entradas más largas. Alucinan menos, aunque siguen alucinando. Están desarrollando mejores capacidades de razonamiento, con modos de "pensamiento" dedicados que resuelven problemas paso a paso en vez de saltar directo a la respuesta. Las capacidades multimodales se están ampliando. Los modelos más recientes de Google, OpenAI, Anthropic y Meta manejan imágenes y audio de forma nativa. Modelos que antes solo procesaban texto ahora analizan capturas de pantalla, interpretan gráficos y responden a entrada de voz. Los fundamentos, sin embargo, se mantienen estables. Predicción. Patrones. Escala. Los modelos no entienden en el sentido humano. Aproximan comprensión mediante estadística aplicada a una escala que produce resultados indistinguibles de una comprensión genuina en muchos contextos prácticos. Si eso es "realmente" inteligencia es una pregunta filosófica. Si es útil es una pregunta empírica. Para la mayoría de tareas que implican lenguaje y texto, la respuesta es cada vez más sí. La pregunta no es si usar estas herramientas. La pregunta es cómo usarlas de forma efectiva, entendiendo qué son y qué no son, para que las partes impresionantes te ayuden y sus límites no te hagan tropezar. Esa es la habilidad real ahora. No trucos de prompting ni técnicas secretas. Entender la máquina lo bastante bien para saber cuándo confiar en ella y cuándo comprobar dos veces.