Publicidad

¿Cómo hace la Inteligencia Artificial para crear una imagen de la nada?

Open AI, la empresa que creó y desarrolló ChatGPT, lanzará una nueva herramienta de inteligencia generativa

Compartir esta noticia
Inteligencia Artificial
Inteligencia Artificial

Esta semana se confirmó que Open AI, la empresa que creó y desarrolló ChatGPT, lanzará una nueva herramienta de Inteligencia Artificial generativa llamada DALL-E 3 que servirá para generar imágenes. DALL-E 3 (por la combinación del pintor Salvador Dalí y el personaje de Pixar, Wall-E) estará disponible a partir de octubre para los suscriptores de ChatGPT Plus y Enterprise a través de su API, mientras que los laboratorios de investigación tendrán acceso en el otoño, pero no anunciaron cuándo estará disponible para el público general.

 

Pero entonces, ¿cómo funciona una herramienta de Inteligencia Artificial que crea imágenes de la nada? Primero, la historia arranca con un grupo de expertos o investigadores que alimentan un sistema informático con cientos de millones de imágenes, generalmente obtenidas de la propia internet.

 

Cada imagen se empareja con su descripción correspondiente, de forma que la computadora aprende a identificar las relaciones entre imágenes y palabras. Supongamos que elige un tigre de bengala. Después de procesar las imágenes y el texto correspondiente, el modelo de IA comienza a relacionar las palabras "un tigre de bengala" con la representación visual de un tigre de bengala.

 

En este punto es muy importante aclarar que un modelo es tan bueno como sus datos de entrenamiento. Esto significa entre otras cosas que los sesgos que se encuentran en internet pueden manifestarse en los resultados, como la instrucción “líder mundial” que solo produce como resultado imágenes de hombres blancos.

 

Supongamos ahora entonces que quien está utilizando este sistema le pide “la Luna de noche” en estilo del pintor uruguayo José Cúneo. El modelo de IA crea un mapa interno de conceptos convirtiendo imágenes y textos en números, y asignando algunas asociaciones con probabilidades más altas (por ejemplo, tocar la guitarra a menudo implica el uso de las manos).

 

Aunque es posible que la IA nunca haya encontrado una imagen de un tigre de bengala en el cielo nocturno de José Cúneo, ahora fue entrenada para interpretar la base de datos de palabras e imágenes y crear una imagen que sea exactamente eso que le estamos pidiendo.

 

Y es aquí que ocurre algo curioso: los investigadores agregan "ruido", es decir, desorden visual, al conjunto de datos de esas imágenes. El ruido visual es un patrón de puntos o píxeles aleatorios, similar a la estática de televisión. Este desorden actúa como una superposición que oculta la imagen original. Los investigadores agregan cada vez más ruido para entrenar al modelo a reconocer que la imagen subyacente todavía contiene un tigre de bengala. Esto se conoce como el "modelo de difusión" del aprendizaje automático, y la mayoría de los generadores de texto a imagen populares lo utilizan.

 

La herramienta de IA aprende entonces a “extraer” la imagen de debajo de todo ese ruido. Con el tiempo, la IA se vuelve tan buena para "desruidizar" las imágenes que adquiere la capacidad de generar una imagen detallada a partir de ruido puro.

 

Esto que parece maravilloso implica varios desafíos éticos que es necesario resolver. El primero tiene que ver con los sesgos de los que les hablé antes y con la reproducción de modelos que queremos combatir. El segundo con el hecho de que los conjuntos de datos utilizados para el entrenamiento incluyen en muchísimos casos imágenes con derechos de autor, obras de artistas y fotógrafos. Esto entre otras cosas ha comenzado a generar juicios exigiendo se los saque de las imágenes de entrenamiento o se los compense económicamente por el uso de sus obras. Sobre esto, y otros dilemas que nos trae la Inteligencia Artificial, hablaremos en otras columnas.

¿Encontraste un error?

Reportar

Temas relacionados

Inteligencia Artifical

Te puede interesar

Publicidad

Publicidad