Los usuarios de ChatGPT, que utiliza el modelo OpenAI, se están quejando constantemente por alteraciones recurrentes en el idioma de respuesta del chatbot. Un fenómeno que ya había ocurrido cuando la herramienta de inteligencia artificial (IA) tuvo problemas con el "spanglish".
En las "conversaciones" habituales que los usuarios tienen con el chatbot, haciéndole preguntas o pidiéndole distintas funciones, el mismo responde con palabras en árabe, hebreo u otros idiomas de distinto abecedario, lo que desconcierta y alarma a los usuarios. Los reclamos de estas personas en redes sociales apuntan que se trata de un error recurrente: "Lo hizo dos veces en mi teléfono y una vez en mi computadora. Ni siquiera estoy en un país de habla ese idioma", comentó un usuario.
¿Por qué el chatbot cambia de idioma?
El modelo de lenguaje OpenAI se puede configurar en una pluralidad de idiomas. Lo que llama la atención es que responda con idiomas que nunca habían sido ni seleccionados ni utilizados por los usuarios antes. New York Post mencionó que ChatGPT devolvió respuestas en hebreo, hindi, chino y ruso. Al preguntarle a esta herramienta de IA por la falla, ésta responde que "se colaron por error".
Estos errores no son azarosos. ChatGPT y otros sistemas de IA generativa tienen lo que se conoce en el rubro como "alucinaciones de la IA". Es decir, respuestas inconexas con los pedidos de los usuarios, incorrectas o sin sentido alguno. Esto es consecuencia de problemas en su entrenamiento, y en su propia forma de retroalimentarse de información.
Diferencia entre las "alucinaciones de la IA" y este error de programación
Hay una distinción entre la respuesta en otros idiomas y las alucinaciones de la IA. El primero se trata de una falla en la programación. La IA se entrena utilizando tokens: unidades básicas de texto que usan los modelos como ChatGPT para procesar y generar lenguaje.
Según señala OpenAI en su centro de ayuda "Los tokens son los componentes básicos del texto que procesan los modelos de OpenAI. Pueden ser tan cortos como un solo carácter o tan largos como una palabra completa, según el idioma y el contexto. Los espacios, la puntuación y las palabras parciales también contribuyen al conteo de tokens. Así es como la API segmenta internamente tu texto antes de generar una respuesta. La tokenización puede variar según el idioma. Por ejemplo, “Cómo estás” (español para “How are you”) contiene 5 tokens para 10 caracteres".
Antecedentes: del "spanglish" al colapso de coherencia en OpenAI
La primera vez que ChatGPT tuvo problemas de esta índole fue en 2024, cuando muchos usuarios encontraron un colapso, donde las respuestas del chatbot eran en "spanglish", la combinación de inglés y español.
Esto abre a la reflexión sobre el excesivo uso que se está haciendo de estas herramientas. En las escuelas, las empresas, los hogares; los chatbots son otros actores más en la sociedad. La forma en la que se le da uso, la información que se le brinda y qué se hace con esa información debería ser tomado con mayor cautela, acompañado de un conocimiento profundo del tema.