A veces, mejorar una respuesta de inteligencia artificial (IA) no requiere escribir un mejor prompt, sino simplemente repetirlo. Esa es la conclusión más llamativa de un estudio de Google Research, que plantea que duplicar el pedido dentro del mismo mensaje puede elevar el rendimiento de varios modelos cuando no están usando razonamiento extendido.
El trabajo fue publicado en arXiv con el título Prompt Repetition Improves Non-Reasoning LLMs y parte de una idea técnica sencilla: como estos modelos procesan el texto en secuencia, el orden de los tokens importa. Repetir el prompt hace que cada parte del pedido vuelva a aparecer en el contexto y, según los autores, eso mejora la capacidad del modelo para usar la información disponible.
Llevado al uso cotidiano, la propuesta sería esta: si un usuario escribe una instrucción, en vez de mandarla una sola vez puede enviarla dos veces seguidas dentro del mismo mensaje. El paper sostiene que este cambio, aunque parezca mínimo, mejora los resultados en varios escenarios sin modificar el formato de salida, lo que permitiría usarlo como ajuste práctico en sistemas ya existentes.
Si una respuesta sale floja, una opción simple es repetir exactamente el pedido dentro del mismo mensaje.
Ejemplo:
En lugar de escribir: “Resumí este texto en cinco líneas.”
Probar con:
“Resumí este texto en cinco líneas. Resumí este texto en cinco líneas.”
Cuándo puede servir
- preguntas concretas
- tareas de extracción
- respuestas breves y estructuradas
- modelos sin reasoning o con reasoning desactivado
Cuándo no esperar milagros
- tareas complejas que requieren razonamiento extendido
- prompts muy largos
- casos donde el problema no es el formato, sino la mala consigna
Los autores probaron la técnica en siete modelos de distintos proveedores: Gemini 2.0 Flash, Gemini 2.0 Flash Lite, GPT-4o-mini, GPT-4o, Claude 3 Haiku, Claude 3.7 Sonnet y DeepSeek V3. Los ensayos se ejecutaron mediante las APIs oficiales de cada empresa entre febrero y marzo de 2025.
También la evaluaron sobre siete benchmarks, entre ellos ARC, OpenBookQA, GSM8K, MMLU-Pro y MATH, además de dos pruebas personalizadas. Según el paper, la repetición del prompt ganó en 47 de 70 combinaciones entre modelo y benchmark, sin registrar derrotas bajo su criterio estadístico.
La repetición del prompt ganó en 47 de 70 combinaciones entre modelos y pruebas, sin derrotas bajo el criterio estadístico usado por los autores.
Uno de los datos más impactantes del estudio aparece en una de las pruebas personalizadas: en NameIndex, Gemini 2.0 Flash-Lite pasó de 21,33% a 97,33% de acierto con esta técnica. No es un resultado extrapolable a cualquier tarea, pero sí muestra que una variación de formato muy simple puede alterar de forma drástica el desempeño en ciertos contextos.
El punto más atractivo para el público general es que esta mejora no vendría acompañada del costo habitual de otras estrategias. El paper afirma que la repetición no aumenta la cantidad de tokens generados y que, cuando el razonamiento está desactivado, las latencias medidas son similares. La principal excepción aparece en los modelos de Anthropic con pedidos muy largos, donde el tiempo de respuesta puede subir.
Eso marca una diferencia importante frente a indicaciones como “pensá paso a paso”, que suelen alargar mucho la respuesta y consumir más tiempo de procesamiento. En este caso, el supuesto beneficio estaría en la etapa previa de lectura del prompt, no en una generación más extensa.
El estudio, sin embargo, también pone límites claros. Cuando el razonamiento está habilitado, el efecto pasa a ser neutral o apenas positivo. En esos casos, la repetición ya no aparece como una ventaja tan marcada.
- No prueba que repetir un prompt mejore siempre la respuesta.
- No sugiere que funcione igual en todos los modelos.
- No reemplaza un buen prompt.
- Es un preprint: todavía no pasó por revisión por pares.
Más allá del hallazgo técnico, el estudio resulta relevante porque plantea una mejora de bajo costo para aplicaciones reales de inteligencia artificial. Si el efecto se confirma en más escenarios, podría ofrecer una forma de ganar precisión en productos ya existentes sin exigir respuestas más largas, mayores costos de generación ni rediseños profundos de la experiencia. Eso lo vuelve especialmente interesante para asistentes, buscadores, sistemas de soporte y otras herramientas donde cada milisegundo y cada token cuentan.
La conclusión de fondo, sin embargo, va más allá de este truco puntual. El paper vuelve a mostrar que en la era de la IA generativa no solo importa qué se pregunta, sino también cómo se formula. Incluso en sistemas cada vez más sofisticados, detalles mínimos de presentación todavía pueden cambiar mucho la calidad de una respuesta.
-
Cuando la información es convincente pero su respaldo es dudoso: una herramienta simple pero de valor para no expertos
Katy Perry y millones de usuarios impulsan #CancelChatGPT tras el polémico acuerdo militar de OpenAI
Cuando la Inteligencia Artificial no reemplaza al humano, sino que lo reconfigura: otra lectura del MIT sobre ChatGPT