Si alguna vez publicaste algo, cualquier cosa, en internet, es probable que tus datos ya hayan sido recopilados, recogidos y utilizados para entrenar sistemas de inteligencia artificial como los que alimentan a ChatGPT, Midjourney y Sora. La inteligencia artificial generativa está diseñada para tener éxito como generalista, y aprender a hacerlo, asegura OpenAI, requiere datos a escala para entrenar.
Probablemente no necesites saber que muchas veces las empresas utilizan datos públicos recopilados, sin el permiso de quienes los crearon, que provienen de artículos, libros y proyectos para que sus herramientas de inteligencia artificial aprendan cómo generar artículos, libros y proyectos. Ya hablamos en otras columnas de que medios norteamericanos como The New York Times están demandando a OpenAI, la empresa propietaria de ChatGPT, acusándola de usar susarchivos sin permiso para entrenar chatbots. En la misma línea, Getty Images demandó a Stable Diffusion por derechos de autor. Otras empresas han decidido tomar el camino de los acuerdos. The Associated Press ha otorgado licencia de parte de sus archivos a OpenAI. Shutterstock, el archivo de fotos, firmó un acuerdo de seis años con esa misma compañía para proporcionar datos de entrenamiento, que incluye acceso a sus bases de datos de fotos, videos y música.
Las formas en que los sistemas de inteligencia artificial utilizan el trabajo de periodistas, músicos y fotógrafos tienen implicaciones bastante importantes para nuestro ecosistema de información y cultura y para las personas que trabajan en los campos en los que las empresas de inteligencia artificial parecen estar decididas a desarrollar herramientas. La necesidad de recopilar cada vez más datos de entrenamiento generando la menor cantidad de problemas legales que sea posible, significa que cualquiera que publique contenido, ya sea una cuenta de fandom en Tumblr, comentarios en Reddit o un blog personal, seguramente verá como la plataforma que lo aloja, vende su contenido a una de estas grandes empresas de inteligencia artificial.
En las últimas semanas, 404 Media informó que Automattic, la empresa matriz de Tumblr y WordPress, se estaba preparando para anunciar acuerdos para vender datos de usuarios a OpenAI y Midjourney. Según el informe de 404, que describe el acuerdo como "inminente", es probable que los datos incluyan publicaciones de usuarios en Tumblr y en WordPress.com. Un día después del informe de 404, Automattic anunció un sistema para que los usuarios pudieran elegir no compartir su contenido público con terceros.
Meses atrás, Reddit y Google llegaron a un acuerdo de US$ 60 millones que le daría a Google acceso a la API de Reddit para, entre otras cosas, entrenar sus modelos de inteligencia artificial generativa, usando todas las publicaciones de los miles de foros en los que interactúan cientos de miles de personas de todas partes del mundo y en varios idiomas.
El año pasado, The Washington Post accedió y analizó uno de los enormes conjuntos de datos de internet público recopilado y utilizado para entrenar modelos de inteligencia artificial generativa. Encontró desde foros de mensajes de World of Warcraft hasta Patreon y Kickstarter, así como varios grandes repositorios de blogs personales. Lejos estaría de sorprender que Meta utilice publicaciones públicas de Facebook e Instagram de cualquiera que está leyendo esta columna para entrenar sus modelos de inteligencia artificial.