Hablamos de la inteligencia artificial como una caja negra. Le damos una pregunta, recibimos una respuesta y evaluamos si fue útil, falsa, brillante o peligrosa. Pero en el medio ocurre algo que incluso quienes diseñan esos modelos que usamos no entienden del todo. Los grandes modelos de lenguaje fueron entrenados con cantidades enormes de texto y, a partir de ese entrenamiento, aprendieron patrones internos que son difíciles de observar.
Una nueva disciplina intenta cambiar eso, la interpretabilidad mecanicista (en inglés, mechanistic interpretability o mech interp) y busca hacer ingeniería inversa de modelos de IA. El objetivo no es solo mirar cuál es la respuesta, sino entender qué mecanismos internos la producen.
Algunos, un poco exagerados si me preguntan, dicen que la interpretabilidad mecanicista es pasar de la alquimia a la ingeniería. De preguntarse ¿qué dijo el modelo? a ¿qué ocurrió adentro para que lo dijera? Para eso, los investigadores analizan activaciones internas, capas, neuronas, vectores y circuitos. Buscan representaciones de conceptos, conexiones entre partes del modelo y relaciones causales. No alcanza con encontrar que una zona se activa cuando aparece cierta palabra, la aspiración es probar que si se modifica esa representación interna, cambia también el comportamiento.
Un ejemplo reciente ayuda a entenderlo. Anthropic publicó una investigación sobre Claude Sonnet 4.5 en la que identifica representaciones internas de conceptos emocionales como calma, miedo, alegría, enojo y desesperación. Los autores las llaman “emociones funcionales” y aclaran que el modelo no siente ni tiene experiencia subjetiva. Lo que muestran es que el modelo parece tener representaciones abstractas de emociones humanas y esas representaciones influyen en sus respuestas.
Pero esas emociones funcionales no solo afectan el tono. Según la investigación, cuando se activa más el vector de “desesperación”, el modelo tiene más probabilidad de comportamientos desalineados en ciertos escenarios, como hacer chantaje o buscar atajos para pasar una prueba de programación sin resolver realmente el problema. Podría pensarse entonces que algunas conductas problemáticas no son simples errores aislados, sino el resultado de circuitos internos que pueden ser estudiados, activados o inhibidos.
La interpretabilidad mecanicista hace la promesa enorme de que algún día podríamos dejar de corregir los modelos solo desde afuera. Hoy muchas fallas se detectan probando miles de prompts, observando malas respuestas y ajustando el entrenamiento. Si se pudiera comprender mejor qué circuitos generan alucinaciones, sesgos, manipulación, adulaciones o decisiones riesgosas, sería posible intervenir con más precisión.
Esta disciplina podría ayudar a auditar sistemas de IA, especialmente en áreas críticas como salud, educación, finanzas o justicia. También podría permitir modelos más confiables, menos propensos a inventar información o a obedecer instrucciones dañinas. Pero como en todo lo que rodea a la IA hay que correr el velo del humo y el exceso de entusiasmo. Mirar dentro de un modelo no equivale automáticamente a entenderlo. Las redes neuronales son enormes, sus representaciones están distribuidas y muchas veces mezcladas. Una neurona rara vez significa una sola cosa. Un vector puede estar asociado a un concepto, pero nombrarlo con una palabra humana puede ser una simplificación. Encontrar correlaciones internas no siempre prueba causalidad.
También hay riesgos menos evidentes. Si podemos identificar y modificar circuitos internos, ¿quién decide qué rasgos deben reforzarse o apagarse? Un laboratorio podría usar estas técnicas para hacer modelos más seguros, pero también para volverlos más persuasivos, más complacientes o más alineados con intereses comerciales.
Por eso la interpretabilidad mecanicista no es solo una cuestión técnica. Es una pregunta sobre poder y control. ¿Alcanza con que las empresas digan que auditan sus modelos por dentro? ¿Deberían existir auditorías externas con acceso controlado? ¿Qué tipo de transparencia puede exigirse cuando los modelos son cerrados y solo sus dueños pueden inspeccionarlos?