--- title: Ajustes de temperatura y creatividad: qué hacen realmente esos deslizadores description: Guía en lenguaje llano sobre la temperatura de los LLM, el top-p y otros ajustes. Qué controla cada parámetro, cuándo ajustarlos y por qué la etiqueta de «creatividad» es engañosa. date: February 5, 2026 author: Robert Soares category: prompt-engineering --- En algún punto entre tu pregunta y la respuesta de la IA, ocurre una decisión. No una decisión. Miles. Cada palabra que escribe el modelo implica elegir entre alternativas que podrían haber encajado ahí. "Azul" o "claro" o "oscuro". "Por lo tanto" o "así que" o "en consecuencia". Cada elección moldea todo lo que viene después. La temperatura es el ajuste que controla cómo se toman esas decisiones. La mayoría de la gente nunca la toca. Deberían. ## La máquina de probabilidades Cuando un modelo de lenguaje genera texto, no recupera respuestas de una base de datos y no está buscando en internet la mejor respuesta a tu pregunta ni consultando la respuesta correcta en alguna enciclopedia enorme. Predice. Con todo lo que ha leído durante el entrenamiento y todo lo que tú has escrito en tu prompt, el modelo calcula la probabilidad de que cada posible palabra siguiente siga de forma natural. Para "El tiempo hoy es ___", el modelo podría calcular: - soleado: 28% de probabilidad - agradable: 15% de probabilidad - terrible: 8% de probabilidad - apocalíptico: 0,003% de probabilidad Estas probabilidades vienen de patrones absorbidos durante el entrenamiento: millones de ejemplos de cómo los humanos completan frases similares, ponderados y combinados a través de capas de matemáticas de redes neuronales que ni siquiera los ingenieros que lo construyeron pueden explicar del todo. La temperatura cambia lo que ocurre después. ## Lo que hace realmente la temperatura El término viene de la física. En mecánica estadística, la temperatura describe cómo se distribuye la energía en un sistema. Los sistemas fríos concentran la energía en patrones predecibles. Los sistemas calientes la dispersan de forma caótica. Las matemáticas se trasladan casi directamente a los modelos de lenguaje, y aquí la palabra "temperatura" no es una metáfora, sino un término técnico real tomado de la termodinámica porque las ecuaciones se parecen casi idénticas. Una temperatura baja afila la distribución de probabilidades. Si "soleado" tenía 28% y "agradable" tenía 15%, bajar la temperatura podría llevarlos a 45% y 8%. Las brechas se agrandan. El favorito se vuelve más dominante. El modelo se vuelve cada vez más propenso a elegir la opción de mayor probabilidad, y las alternativas de baja probabilidad casi nunca salen. Una temperatura alta aplana la distribución. Esas mismas probabilidades podrían convertirse en 22% y 18%. Las brechas se reducen. Las opciones en segundo y tercer lugar tienen más oportunidades. El modelo muestrea más ampliamente de su distribución de probabilidades, incluyendo palabras que casi nunca elegiría con temperatura baja. Con temperatura cero, el modelo siempre elige la única palabra siguiente más probable. Siempre. Ejecuta el mismo prompt cien veces y obtendrás la misma salida cien veces. A esto a veces se le llama decodificación codiciosa (greedy decoding). Con temperatura uno, el modelo muestrea directamente de su distribución de probabilidades en bruto, sin modificarla. Una palabra con 10% de probabilidad tiene un 10% de posibilidades de ser elegida. Por encima de temperatura uno, las opciones de menor probabilidad reciben un impulso. La distribución se aplana aún más. Palabras que tenían probabilidades diminutas ahora tienen probabilidades reales. ## La ilusión de la creatividad Muchas interfaces de IA etiquetan su deslizador de temperatura como "creatividad". Esto es marketing. No ingeniería. La aleatoriedad no es creatividad. Elegir palabras inesperadas no es lo mismo que tener ideas interesantes, y esa diferencia importa muchísimo para cómo deberías pensar en este ajuste. Un usuario de Hacker News llamado spywaregorilla [lo expresó bien](https://news.ycombinator.com/item?id=35131112): temperature is "more like 'willingness to choose less likely answers.'" Ese encuadre ayuda. Menos probable no es lo mismo que mejor o más creativo. A veces la palabra menos probable es sorprendente y deliciosa. A veces simplemente está mal. Una temperatura más alta sí produce salidas más variadas. El modelo explora más su espacio de probabilidades, y esa exploración ocasionalmente saca a la superficie combinaciones que nunca habrías visto con temperatura baja. Pero "ocasionalmente" es la palabra clave. La mayor parte del tiempo, las palabras de baja probabilidad eran de baja probabilidad por buenas razones. Otro comentarista, noodletheworld, [lo dijo sin rodeos](https://news.ycombinator.com/item?id=43673746): "Randomising LLM outputs (temperature) results in outputs that will always have some degree of hallucination. That's just math. You can't mix a random factor in and magically expect it to not exist." Ese es el intercambio. El determinismo produce consistencia y aburrimiento. La aleatoriedad produce variedad y errores. La temperatura es el control entre esos polos. ## El problema del cero Si el determinismo evita las alucinaciones, ¿por qué no usar siempre temperatura cero? Porque el determinismo tiene su propia patología. Los modelos a temperatura cero se atascan. Caen en bucles. Se repiten de forma obsesiva. Recurren a la redacción más genérica y probable para todo, produciendo texto que suena como si lo hubiera escrito un burócrata cauteloso que nunca quiere decir nada interesante. Avianlyric en Hacker News [explicó la dinámica](https://news.ycombinator.com/item?id=43823899): "Setting the temperature of an LLM to 0 effectively disables that randomness, but the result is a very boring output that's likely to end up caught in a never ending loop." Se necesita cierta cantidad de aleatoriedad para obtener una salida interesante. La pregunta es cuánta. ## Top-p: un enfoque diferente La temperatura escala las probabilidades. Top-p (también llamado muestreo por núcleo, nucleus sampling) restringe qué opciones se consideran siquiera. El modelo sigue calculando probabilidades para cada posible palabra siguiente. Pero en lugar de escalar esas probabilidades, top-p traza un umbral. Si pones top-p en 0.9, el modelo ordena todas las palabras por probabilidad, las va sumando desde la más probable y se detiene cuando llega al 90% de probabilidad acumulada. Todo lo que queda por debajo de esa línea se elimina. Luego el modelo solo muestrea entre las opciones restantes. Este enfoque tiene una ventaja que la temperatura no tiene. Se adapta. Cuando el modelo está seguro y una palabra domina la distribución, top-p selecciona de forma natural a partir de un conjunto pequeño. Cuando el modelo no está seguro y las probabilidades se reparten entre muchas opciones, top-p incluye más candidatas. La temperatura aplica el mismo escalado independientemente del contexto. Top-p responde al nivel de confianza del propio modelo. En la práctica, top-p tiende a producir una calidad de salida más consistente entre distintos tipos de prompts. La temperatura puede funcionar de maravilla con un prompt y fatal con otro. Top-p suaviza esos extremos. ## Top-k: el instrumento tosco Top-k es más simple y más bruto. Considera exactamente k opciones, pase lo que pase. Pon top-k en 50 y el modelo solo muestrea entre las 50 palabras siguientes más probables. Ponlo en 5 y solo tienes 5 opciones. Los valores reales de probabilidad no importan para el corte; solo el orden. Esto crea problemas evidentes. Algunos contextos tienen respuestas correctas claras donde menos de 50 opciones tienen sentido. Otros tienen posibilidades abiertas donde 50 es demasiado restrictivo. Top-k no puede distinguirlo. La mayoría de los sistemas en producción prefieren top-p a top-k. La adaptabilidad importa. ## Cómo interactúan los ajustes Aquí es donde la gente se confunde. Estos parámetros pueden trabajar juntos, pero a menudo se estorban. El orden de procesamiento típico es: calcular probabilidades, aplicar el escalado de temperatura, aplicar el filtrado top-p o top-k, y luego muestrear lo que quede. La temperatura ocurre primero. Remodela toda la distribución. Luego top-p o top-k corta la cola. El resultado depende de ambos ajustes, y la interacción puede ser impredecible. La mayoría de la documentación recomienda ajustar uno u otro, no los dos. Si estás usando top-p, deja la temperatura en 1.0 para trabajar con la distribución en bruto. Si estás ajustando la temperatura, pon top-p en 1.0 (lo que lo desactiva) para que la temperatura tenga el control completo. Ajustar ambos a la vez no está mal, pero hace que los resultados sean más difíciles de predecir y que sea más difícil diagnosticar cuando la salida se va al garete. ## Min-p: el recién llegado En los últimos meses ha crecido el entusiasmo por un enfoque más nuevo llamado muestreo min-p, especialmente entre gente que ejecuta modelos de código abierto en su propia máquina. Min-p fija una probabilidad mínima relativa a la opción superior. Si la palabra más probable tiene 50% y min-p se fija en 0.1, cualquier palabra con menos de 5% (una décima de 50%) se elimina. Al igual que top-p, esto se adapta al contexto. Cuando el modelo está seguro, min-p es permisivo porque incluso opciones moderadamente probables superan el umbral. Cuando el modelo no está seguro, min-p es restrictivo porque casi nada supera un listón alto. Los proveedores de API como OpenAI y Anthropic actualmente no ofrecen min-p. Solo te lo encontrarás al usar modelos locales a través de herramientas como llama.cpp o text-generation-webui. Pero si estás experimentando con modelos de pesos abiertos, min-p merece la pena entenderlo. ## Guía práctica Distintas tareas piden distintos ajustes. Esto es lo que funciona de verdad. **Para generar código:** Temperatura baja. Entre 0.0 y 0.3. Los errores de sintaxis no son creativos. Los fallos de lógica no son sorpresas interesantes. El código o funciona o no, y más aleatoriedad solo produce más salidas rotas. **Para preguntas factuales:** Temperatura baja. La respuesta correcta a "¿Cuál es la capital de Francia?" es París. No hay una alternativa creativa que lo mejore. La aleatoriedad solo puede empeorar la respuesta. **Para escritura de negocios:** Temperatura moderada. Entre 0.3 y 0.6. Quieres un texto profesional y pulido, no robótico y repetitivo. Un poco de variación mantiene la prosa viva. Demasiada variación introduce errores o elecciones de palabras raras que minan la credibilidad. **Para escritura creativa:** Temperatura más alta. Entre 0.7 y 1.0. Aquí la aleatoriedad sí ayuda. Elecciones de palabras inesperadas crean sorpresa. Combinaciones inusuales producen imágenes frescas. Quieres que el modelo explore su espacio de posibilidades, no que vuelva a los clichés. **Para lluvia de ideas:** Temperatura más alta. Entre 0.9 y 1.2. Aquí quieres explícitamente una salida inesperada. Estás buscando ideas en las que no habrías pensado, y el objetivo es sacar a la luz opciones de baja probabilidad. Genera muchas salidas y selecciona después. ## El modelo importa Distintos modelos responden de forma distinta a cambios de temperatura. Los modelos más grandes toleran mejor temperaturas más altas. Han absorbido más patrones, más formas de completar cualquier idea. Cuando muestrean opciones de baja probabilidad, esas opciones siguen estando informadas por un entrenamiento vasto. Los modelos más pequeños tienen menos conocimiento. Sus salidas de baja probabilidad son más propensas a ser sinsentidos. Los modelos más nuevos también tienden a manejar la temperatura con más gracia. Las mejoras en entrenamiento y arquitectura han reducido la brecha entre la calidad de salida a alta temperatura y a baja temperatura. Lo que habría producido galimatías en GPT-2 podría producir alternativas interesantes de redacción en GPT-4. Si estás usando un nivel más barato o un modelo más pequeño, mantén la temperatura más baja. Con modelos potentes, tienes más margen para experimentar. ## Más allá de lo básico La mayoría de usuarios solo se encuentra con temperatura, y quizá top-p. Los usuarios de API quizá también vean: **Frequency penalty** desincentiva repetir palabras ya usadas en la salida. Valores más altos significan un desincentivo más fuerte. Esto ayuda con el problema de repetición a temperaturas bajas sin añadir aleatoriedad pura. **Presence penalty** incentiva introducir temas nuevos en lugar de quedarse en lo que ya se mencionó. Similar a frequency penalty, pero más sobre novedad conceptual que sobre repetición de palabras. **Max tokens** controla la longitud de la salida. No tiene que ver con aleatoriedad, solo con cuándo el modelo deja de generar. Estos ajustes importan más para desarrolladores que construyen aplicaciones encima de APIs de modelos de lenguaje. Para el uso típico en chat, temperatura y top-p son los que merece la pena entender. ## Los ajustes no son estrategia Esto es lo que me habría gustado que alguien me dijera cuando empecé a experimentar con estos controles: afinar parámetros no es lo mismo que dar buenas instrucciones. Un prompt brillante con ajustes por defecto superará a un prompt mediocre con ajustes perfectos. Un contexto claro le gana a elecciones ingeniosas de temperatura. Ejemplos específicos le ganan a valores de top-p retocados. Los fundamentos de comunicarte bien con modelos de lenguaje importan más que la optimización de parámetros. Dicho esto, los parámetros sí importan en los márgenes. Una vez que tienes un buen prompt, ajustar la temperatura puede mejorar de forma significativa los resultados para tu caso de uso concreto. Las ganancias son reales. Simplemente no son las primeras ganancias que deberías perseguir. ## La verdad incómoda Los ajustes de temperatura revelan algo en lo que a veces la gente prefiere no pensar: los modelos de lenguaje son sistemas probabilísticos que toman decisiones estadísticas, no motores de razonamiento que llegan a respuestas correctas. Cuando pones la temperatura a cero y obtienes una salida determinista, no estás obteniendo la respuesta correcta. Estás obteniendo la respuesta más probable. No es lo mismo. Cuando subes la temperatura y obtienes una salida variada, no estás obteniendo respuestas creativas. Estás obteniendo respuestas muestreadas. Tampoco es lo mismo. El modelo no sabe qué palabra es correcta. Sabe qué palabra es probable. La temperatura controla cuán estrictamente sigue esa probabilidad frente a cuánto explora alternativas. Ninguna de las dos opciones hace que el modelo sea más inteligente o más preciso. Ambas solo cambian qué salidas de su distribución de probabilidades acabas viendo. Entender esa diferencia cambia cómo usas estas herramientas. Dejas de esperar que el ajuste correcto desbloquee una capacidad oculta. Empiezas a pensar qué estrategia de muestreo encaja con tu tarea concreta. Te sientes cómodo con la realidad de que los modelos de lenguaje son potentes y útiles y también fundamentalmente distintos de cómo funciona la inteligencia en realidad. El deslizador de temperatura no es un control de creatividad. Es un control de aleatoriedad. A veces la aleatoriedad te sirve. A veces no. Saber la diferencia es casi todo lo que hay que saber.