prompt-engineering
11 min read
View as Markdown

Más allá del prompting básico: patrones que realmente cambian cómo "piensa" la IA

Deja los prompts simples y usa técnicas como self-consistency, Tree of Thought y meta-prompting. Métodos prácticos que producen mejores outputs.

Robert Soares

La mayoría de los consejos de prompting son obvios. Sé específico. Da ejemplos. Añade contexto.

Eso te lleva quizá al 60% de un output útil. El 40% restante es donde se pone interesante — porque es donde los modelos de lenguaje empiezan a fallar de maneras predecibles que exigen una forma de pensar completamente distinta.

Las técnicas aquí no son secretas. Están bien documentadas en papers y se discuten sin parar en foros como Hacker News y Reddit. Pero entender cuándo aplicar cada una — y, más importante, cuándo no — separa a quienes consiguen buenos resultados de forma consistente de quienes culpan al modelo cuando las cosas salen mal.

Por qué los modelos de lenguaje fallan de formas predecibles

Este es el problema central. Los LLM generan texto de izquierda a derecha, un token a la vez. Cada token restringe lo que viene después. Una vez que el modelo se compromete con un camino de razonamiento, rara vez da marcha atrás.

Esto funciona bien para preguntas simples. Falla para cualquier cosa que requiera exploración.

Un comentario en Hacker News, de cube2222, ilustró el problema del error acumulado: “if each step has a 97% chance of being completed correctly, if your task requires 10 steps one after the other, the chance of success falls to 97%*10=74%.” Diez pasos con un 3% de error por paso te deja en 74% de éxito. ¿Veinte pasos? Alrededor de 54%.

Los patrones que siguen atacan esta limitación fundamental. Añaden exploración donde antes solo había compromiso. Verificación donde antes solo había generación. Ramificación donde antes solo había linealidad.

Self-Consistency: pregunta varias veces, confía en la mayoría

La técnica avanzada más simple. Ejecuta el mismo prompt varias veces con una temperatura más alta. Extrae la respuesta final de cada salida. Quédate con la más común.

Funciona porque los modelos de lenguaje son probabilísticos. La misma pregunta produce caminos de razonamiento diferentes en cada ejecución. A veces esos caminos contienen errores que se propagan al resto del trabajo. Pero ejecuciones distintas cometen errores distintos. Cuando agregas, el razonamiento correcto se refuerza mientras los errores se cancelan.

Las matemáticas son directas. Si tu modelo acierta el 60% de las veces en una sola ejecución, cinco ejecuciones independientes con votación por mayoría empujan la precisión hacia el 80%. La técnica fue propuesta por Wang et al. y se mostró que mejora de forma significativa el rendimiento en aritmética y razonamiento de sentido común.

Self-consistency brilla en problemas con una sola respuesta verificable. Rompecabezas lógicos. Preguntas factuales. Cualquier cosa que puedas comprobar. Se atasca en tareas creativas (no hay una respuesta “correcta”) o en problemas donde el modelo comete el mismo error sistemático sin importar el camino.

El coste es obvio. Pagas de 5 a 10 veces más tokens. Para un sistema en producción con millones de consultas, la economía no cierra. Para consultas individuales de alto riesgo, donde la precisión importa más que el coste, funciona.

Tree of Thought: cuando el razonamiento lineal no basta

El chain-of-thought prompting, donde le pides al modelo que muestre su trabajo, ayuda en muchos problemas. Pero una vez que el modelo arranca por un camino de razonamiento, se compromete.

Tree of Thought cambia esto. En vez de generar un solo camino, generas múltiples posibles siguientes pasos en cada punto de decisión. Los evalúas. Solo sigues las ramas prometedoras. Puedes volver atrás cuando algo no lleva a ningún lado.

En ciertos problemas, las mejoras son dramáticas. En el puzzle “Game of 24”, donde usas cuatro números y operaciones básicas para llegar exactamente a 24, investigadores de Princeton encontraron que GPT-4 con chain-of-thought estándar resolvía solo el 4% de los problemas. ¿Con Tree of Thought? 74%.

Eso no es mejora marginal. Es la diferencia entre inútil y útil.

Pero la técnica tiene costes reales más allá de los tokens. En Hacker News, el usuario startupsfail señaló desafíos prácticos: “it is: costly, slow, there is node collapse, it impacts context length, it injects biases.” La sobrecarga de múltiples generaciones por paso, la evaluación de cada rama y el seguimiento de toda la estructura en árbol se acumula rápido.

Tree of Thought se gana su coste para problemas de planificación, puzzles con múltiples enfoques válidos y tareas creativas donde tu primera idea rara vez es la mejor. Para preguntas factuales simples, es exceso: quema tokens sin mejorar resultados.

Prompt chaining: dividir trabajo complejo en etapas

Algunas tareas son demasiado complejas para un solo prompt. No porque el modelo no pueda con la complejidad, sino porque el problema tiene fases realmente distintas que se benefician de enfoques diferentes.

El prompt chaining divide el trabajo en etapas donde el output de un prompt alimenta el input del siguiente. Extrae citas relevantes de un documento en el prompt uno. Usa solo esas citas para responder una pregunta en el prompt dos. El primero se enfoca en encontrar. El segundo se enfoca en razonar.

Esta separación hace varias cosas. Mantiene cada prompt enfocado en un trabajo, cosa que los modelos manejan mejor que instrucciones con múltiples partes. Te permite inspeccionar resultados intermedios y atrapar errores antes de que se propaguen. Y permite usar configuraciones distintas en cada etapa — quizá diferentes temperaturas o incluso diferentes modelos, cada uno jugando a sus fortalezas.

Un usuario de Hacker News, coolKid721, describió el flujo: “Breaking it down into parts and having multiple prompts with smaller context that all have structured output you feed into each other.”

La técnica se rompe cuando los pasos tienen dependencias estrechas que no se separan bien, o cuando el output intermedio pierde contexto que necesitas después. Puedes pasar más información por la cadena, pero eso aumenta tokens y crea nuevos puntos de fallo.

Empieza con dos etapas. Haz que funcionen bien. Solo añade más cuando tengas evidencia clara de que la división ayuda.

Reflection: hacer que el modelo revise su propio trabajo

Si ChatGPT puede pensar, solo puede pensar en voz alta.

Todo lo que el modelo considera tiene que aparecer en su output. No hay deliberación interna oculta. Los prompts de reflection explotan esto haciendo explícito el autochecking. Le pides al modelo que resuelva un problema y luego que revise su solución e identifique errores.

En Hacker News, el usuario nate compartió una observación común: “I constantly ask chatGPT: ‘are you sure?’ to it’s replies, and it almost always corrects a mistake.” Simple. Y a menudo funciona.

¿Por qué funciona, si el modelo que comete el error y el que revisa son los mismos pesos, el mismo entrenamiento? Parte de la respuesta es la asignación de atención. Al generar una respuesta, el modelo equilibra entender el problema, planear un enfoque y producir un output coherente al mismo tiempo. Al revisar, solo necesita comprobar si lo que ya existe es correcto. Es una tarea más simple.

Pero reflection tiene una trampa. El mismo hilo de HN incluía una advertencia de dr_kiszonka: “it also corrects ‘mistakes’ if there aren’t any.” Cuando preguntas “are you sure?”, estás insinuando duda, y los modelos están entrenados para responder a preocupaciones. A veces eso significa cambiar una respuesta correcta por una incorrecta solo para parecer útil.

Prompts de reflection más sofisticados reducen este problema. En vez de una duda vaga, prueba “review your solution step by step and verify each logical move” o “identify any assumptions you made that might not hold.” Da criterios de evaluación específicos, no una invitación abierta a dudar de todo.

El framework Reflexion formaliza esto como un loop: intento, evaluación, reflection sobre qué falló, e intento de nuevo con esa reflection como contexto. El modelo genera una explicación corta de por qué probablemente falló, y esa explicación se convierte en parte del contexto del siguiente intento.

Meta-Prompting: usar la IA para escribir tus prompts

¿Por qué escribir prompts tú mismo cuando el modelo puede escribirlos?

El meta-prompting le pide al modelo que genere o mejore prompts para una tarea. Tú describes lo que quieres lograr y el modelo produce un prompt diseñado para lograrlo. Luego puedes pedirle que critique y refine ese prompt antes de usarlo.

La técnica surgió de una observación: los modelos a menudo saben qué hace que un prompt sea bueno incluso cuando el usuario no lo sabe. Han sido entrenados con incontables ejemplos de instrucciones efectivas. Pedirles que apliquen ese conocimiento al diseño de prompts solo hace esa expertise accesible.

Investigadores de Stanford publicaron trabajo sobre “Meta-Prompting: Enhancing Language Models with Task-Agnostic Scaffolding” que formaliza estas ideas. La técnica ofrece ventajas en eficiencia de tokens y permite comparar de manera más justa distintos enfoques de resolución de problemas.

No todo el mundo está convencido. Un comentador de Hacker News, lexandstuff, fue contundente: “Role prompting is totally useless imo…Be clear with your requirements. Add examples, if necessary.” El escepticismo tiene mérito. El meta-prompting funciona mejor cuando no estás seguro de la estructura del prompt, pero tienes claro el objetivo. Es menos útil cuando tu desafío real es entender qué quieres o cuando el conocimiento de dominio importa más que el formato.

Dónde brilla el meta-prompting: generar variaciones de prompt para probar, mejorar prompts que casi funcionan pero se sienten torpes y aprender qué elementos hacen efectivo un prompt revisando las sugerencias del modelo.

Modelos de razonamiento: estos patrones, pero incorporados

El modelo o1 de OpenAI y otros “reasoning models” similares están, en esencia, incorporando estos patrones dentro del propio modelo. Tree of thought. Self-consistency. Reflection. Chain-of-thought que realmente vuelve atrás.

Una discusión en Hacker News mostró el trade-off. El usuario arthurcolle notó que “they aren’t letting you see the useful chain of thought reasoning that is crucial to train a good model.” OpenAI oculta las trazas de razonamiento y solo muestra resúmenes. Obtienes beneficios sin entender cómo llegó el modelo a la respuesta.

Los modelos de razonamiento cuestan más y son más lentos que los modelos base. Para muchas tareas, es exceso. Los patrones de prompting de este artículo te permiten añadir capacidad de razonamiento de forma selectiva, solo donde importa, al nivel de coste apropiado para cada consulta.

Saber cuándo aplicar qué

Estas técnicas resuelven problemas distintos. Mezclarlas mal solo desperdicia tokens y tiempo.

Self-consistency te da confianza cuando puedes permitirte múltiples ejecuciones. Úsala para matemáticas, lógica, preguntas factuales. Cualquier cosa con una respuesta verificable se beneficia del mecanismo de votación.

Tree of Thought se gana su coste cuando los problemas tienen múltiples enfoques válidos. Planificación. Tareas creativas donde tu primera idea no es necesariamente la mejor. Puzzles que recompensan la exploración.

Prompt chaining encaja con tareas con fases distintas. Workflows complejos. Tareas que mezclan retrieval y razonamiento. La pregunta clave es si lo dividirías en pasos de forma natural si lo hicieras a mano.

Reflection añade verificación cuando la precisión importa. Generación de código. Argumentos lógicos. Cualquier output que querrías comprobar. La técnica es barata: un prompt más, y a menudo detecta errores reales.

Meta-prompting ayuda cuando no sabes cómo promptear un tipo nuevo de tarea o cuando quieres generar variaciones rápidamente para probar.

La habilidad real está en la combinación. Un sistema en producción podría usar prompt chaining para dividir trabajo, tree of thought para planificación, self-consistency para la respuesta final y reflection para atrapar errores antes del output. Cada técnica ataca un modo de fallo distinto.

Lo que todo esto sugiere

Cada técnica aquí rodea la misma limitación: los modelos de lenguaje generan de forma lineal y no exploran, verifican ni vuelven atrás de forma natural.

Self-consistency añade exploración con múltiples ejecuciones. Tree of Thought añade ramificación y poda. Reflection añade verificación. Prompt chaining añade descomposición.

Quien entiende cuándo aplicar cada una no está coleccionando trivia. Está aprendiendo a diseñar sistemas que “piensan” de formas distintas según lo que el problema exige. Un comentador de Hacker News, idopmstuff, lo enmarcó bien: “prompting is basically the same thing as writing requirements as a PM. You need to describe what you want with precision and the appropriate level of detail.”

Los modelos seguirán mejorando. El razonamiento se moverá aún más dentro de los pesos. Pero la idea central se mantiene: problemas distintos exigen estructuras de pensamiento distintas. Saber qué estructura encaja con qué problema es la habilidad real.

Ready For DatBot?

Use Gemini 2.5 Pro, Llama 4, DeepSeek R1, Claude 4, O3 and more in one place, and save time with dynamic prompts and automated workflows.

Top Articles

Come on in, the water's warm

See how much time DatBot.AI can save you