Retos de privacidad en los modelos de IA generativa

En los últimos meses, las grandes empresas de tecnología han anunciado y lanzado sus propias versiones de inteligencia artificial generativa. En junio, Tim Cook anunció el lanzamiento de Apple Intelligence para las próximas versiones de los sistemas operativos de sus dispositivos. Apenas ayer, 23 de julio, Meta puso a disposición Meta AI en sus aplicaciones Facebook, Instagram, WhatsApp y Messenger en varios países de latinoamérica. Por su lado, Google desarrolló Gemini, la cual busca integrar a sus diferentes productos y plataformas.

En este contexto, donde todas estas compañías están compitiendo por quién desarrolla el mejor asistente de IA, es natural preguntarnos sobre los datos utilizados para generar estos modelos. Especialmente los datos personales y los datos que generamos mientras usamos cada una de estas plataformas. Por eso es necesario conocer los conceptos y procesos que, luego de su respectivo análisis, nos permitirán decidir si queremos que nuestros datos sean utilizados o no y cómo hacerlo.

Sobre los conceptos…

Lo primero que debemos tener en cuenta es que la inteligencia artificial de la que se está hablando en la mayoría de espacios (educativos, económicos, legales, etcétera) es la inteligencia artificial generativa: una tecnología con la capacidad de crear imágenes, textos, videos y otros elementos a partir de instrucciones (prompts) dadas por el usuario. Algunos ejemplos de este tipo de tecnología son ChatGPT, Dall-E, Copilot, etcétera.

Es importante diferenciar este tipo de tecnología con la inteligencia artificial que ha existido entre nosotros desde hace más de 60 años, la cual, naturalmente, ha ido evolucionando con el diseño de nuevos materiales, la investigación y el volumen de datos disponibles. En las últimas dos décadas, las grandes plataformas que gobiernan Internet han utilizado algoritmos de inteligencia artificial principalmente para mejorar sus sistemas de recomendación de contenido (amigos, productos, fotos, videos, etc.), y para ello han utilizado los datos generados por los usuarios en sus respectivas plataformas.

Entonces no es la primera vez que Meta, Google, Amazon, Apple u otra compañía entrenan modelos de IA tomando como fuente nuestros datos. La diferencia es que esta vez la cantidad de datos utilizados necesarios para el entrenamiento de estos modelos de inteligencia artificial generativa es mucho más grande y variada (imágenes, párrafos completos, audio, video) que antes.

Lo que hacen estos modelos es identificar patrones y estilos en los textos, imágenes, videos o audios con el objetivo de replicarlos y generar nuevos elementos. Esto nos lleva al siguiente paso.

Cómo funciona

En un post anterior ya explicamos cómo fue que llegamos a ChatGPT y cómo funciona esta tecnología. De forma similar en el caso de otros modelos de generación de imágenes o código, se utilizan redes neuronales para identificar patrones en los datos de entrada y, a partir de estos patrones, generar nueva información. La capacidad de esta tecnología para identificar estos patrones en datos no estructurados (imágenes, libros, videos y música) la hace particularmente atractiva para toda la información que hemos generado desde los inicios de Internet y especialmente en redes sociales.

Debido a que la cantidad de datos requeridos para el entrenamiento es gigantesca, el aprendizaje no puede hacerse en tiempo real, es decir que trabajan con información recolectada hasta cierta fecha (cutoff date). Por ejemplo, la primera versión de ChatGPT fue entrenada únicamente con datos previos a septiembre del 2021; posteriormente pueden lanzarse versiones con ajustes menores, pero la información base mantiene una fecha de corte.

Muchas plataformas han optado por «conectarse» a Internet y que sus respuestas sean un resumen de los resultados que han podido encontrar. Esto con el fin de citar fuentes de información.

Por qué es necesario tanta información

Si tomamos en cuenta los modelos que generan texto, estos buscan interactuar con los usuarios casi de forma natural como si fuera otro ser humano. Y para poder replicar las variaciones, dialectos, jergas y estilos de escritura de un ser humano es necesario una gran cantidad de datos que permita justamente entender el contexto y el marco general. Esto ayuda a que los conceptos sean menos ambiguos, evitar sesgos y mejorar la calidad de las respuestas dadas por el modelo, haciéndolo más «natural».

Los problemas

Debido a que estos modelos aprenden patrones de los datos que fueron utilizados para entrenamiento, es posible que, dada una instrucción (prompt injection), la respuesta del modelo incluya información confidencial de una empresa o datos personales. Esto es más probable en modelos de los cuales no se sabe mucho sobre los datos que fueron utilizados para el entrenamiento. Para evitar difundir esta información, muchas plataformas realizan un control sobre lo que el usuario solicita y buscan mitigar que la salida de estos modelos sea lo menos dañina posible. Otras empresas, se encargan de enmascarar datos sensibles antes del entrenamiento, quedándose solo con la estructura de la información, la cual alimenta al modelo. De esta manera, no es posible un filtrado de datos en su salida. Esto todavía sigue siendo un trabajo en proceso y cada empresa está mostrando su propia perspectiva.

El panorama actual nos dice que estamos en una carrera sobre qué empresa desarrollará la mejor herramienta de IA generativa, o la más popular. Si bien OpenAI, con el financiamiento de Microsoft, fue la que dio el primer gran paso en el ecosistema, plataformas con mayor tiempo en el mercado como Google, Meta o Apple decidieron incursionar también en esta aventura.

Por lo visto anteriormente, el volumen de datos utilizados para el entrenamiento de estos productos es esencial para un buen resultado. Para ello, cada empresa está dispuesta a hacer uso de los datos que los usuarios han subido a sus respectivas plataformas. Por ejemplo:

ChatGPT [OpenAI]: Puede utilizar el contenido que el usuario sube a su plataforma para el entrenamiento de próximos modelos, más precisos, mejores en tareas específicas, capacidades y seguridad.
«When you share your content with us, it helps our models become more accurate and better at solving your specific problems and it also helps improve their general capabilities and safety.»

Gemini [Google]: «Google recopila tus conversaciones de Gemini Apps, información relacionada con el uso de productos, información sobre su ubicación y sus comentarios … para ofrecer, mejorar y desarrollar productos, servicios y tecnologías de aprendizaje automático de Google, incluidos los productos empresariales de Google, como Google Cloud».

Copilot [Microsoft]: «Específicamente la versión disponible en el navegador Edge. En función del aviso del usuario y su consentimiento para compartir datos con Microsoft, Microsoft Edge puede enviar datos pertinentes a Copilot. Para preguntas que no necesitan un contexto de exploración, como «Ayúdeme a planear un viaje a Manhattan», Edge comparte la dirección URL, el título de la página, la consulta del usuario y el historial de conversaciones anteriores para ayudar a Copilot responder a su pregunta de forma eficaz».

Meta AI [Meta]: «… Usamos información online disponible públicamente e información con licencia. También utilizamos la información que compartiste en los productos y servicios de Meta. Por ejemplo, publicaciones o fotos con sus descripciones. No usamos el contenido de tus mensajes privados con amigos y familiares para entrenar a nuestras IA.»

Alternativas

Ante este escenario ¿qué pueden hacer los usuarios de estas plataformas? Eso depende de la regulación existente en cada país y los mecanismos disponibles por cada plataforma.

OpenAI: OpenAI cuenta con un portal (https://privacy.openai.com/policies) donde el usuario puede solicitar, entre otras cosas, detener el entrenamiento de nuevos modelos a partir de sus datos. También puede solicitar la descarga de tus datos o borrar tu cuenta.
Gemini [Google]: Al ser un producto de Google, es posible gestionar tu actividad a través de su plataforma en myactivity.google.com/product/gemini.

Esto implica poder eliminar tu contenido, configurar una eliminación automática (3, 18 o 36 meses). En caso la actividad esté desactivada, Gemini mantiene las conversaciones guardadas por hasta 72 horas para prestar el servicio.

Copilot [Microsoft]: En el caso de la versión de Copilot disponible en el navegador Edge, es posible deshabilitar que Copilot acceda al contenido de la página siguiendo los siguientes pasos:
- Configuración de Microsoft Edge > Barra lateral > Configuración de apps y notificaciones > Copilot > Permitir a Copilot que acceda al contenido de la página web».
Meta AI [Meta]: En países con un marco regulatorio más fuerte (países de la Unión Europea, Reino Unido o Brasil), Meta ha dispuesto de un formulario acorde a su base legal. Este permite a sus usuarios que sus datos no sean utilizados en el entrenamiento de su inteligencia artificial generativa.

Para países de latinoamérica, como Perú, es posible evitar que nuestro contenido sea fuente de entrenamiento haciendo un cambio en el tipo de visibilidad de nuestras publicaciones. La IA de Meta se entrena con publicaciones en modo público y contenido de la web. Hacer el cambio a modo ‘privado’, evitará que tu contenido sea parte de ese nuevo volumen de entrenamiento.

Esta última opción puede ser un inconveniente para aquellos artistas que por muchos años han utilizado plataformas como Facebook e Instagram para crear una comunidad, al punto que se ha convertido en una parte importante de sus ingresos y comisiones independientes. En ese sentido, existe la posibilidad de publicar sus fotos e ilustraciones sin que los modelos de inteligencia artificial generativa puedan «aprender» de sus estilos y que al mismo tiempo sean imperceptibles por el ojo humano. Por ejemplo, en la Universidad de Chicago se desarrolló The Glaze Project, que promete proteger a los creativos humanos contra los usos invasivos de la inteligencia artificial generativa o GenAI.

Edgar Huaranga

Director de Tecnología

MSc. Inteligencia Artificial Universidad Politécnica de Madrid
BSc. Ciencia de la Computación Universidad Nacional de Ingeniería

Sobre los conceptos…

Cómo funciona

Por qué es necesario tanta información

Los problemas

Alternativas

Deja una respuesta Cancelar la respuesta