Categoría: Inteligencia artificial

Retos de privacidad en los modelos de IA generativa

En los últimos meses, las grandes empresas de tecnología han anunciado y lanzado sus propias versiones de inteligencia artificial generativa. En junio, Tim Cook anunció el lanzamiento de Apple Intelligence para las próximas versiones de los sistemas operativos de sus dispositivos. Apenas ayer, 23 de julio, Meta puso a disposición Meta AI en sus aplicaciones Facebook, Instagram, WhatsApp y Messenger en varios países de latinoamérica. Por su lado, Google desarrolló Gemini, la cual busca integrar a sus diferentes productos y plataformas.

En este contexto, donde todas estas compañías están compitiendo por quién desarrolla el mejor asistente de IA, es natural preguntarnos sobre los datos utilizados para generar estos modelos. Especialmente los datos personales y los datos que generamos mientras usamos cada una de estas plataformas. Por eso es necesario conocer los conceptos y procesos que, luego de su respectivo análisis, nos permitirán decidir si queremos que nuestros datos sean utilizados o no y cómo hacerlo.

Sobre los conceptos…

Lo primero que debemos tener en cuenta es que la inteligencia artificial de la que se está hablando en la mayoría de espacios (educativos, económicos, legales, etcétera) es la inteligencia artificial generativa: una tecnología con la capacidad de crear imágenes, textos, videos y otros elementos a partir de instrucciones (prompts) dadas por el usuario. Algunos ejemplos de este tipo de tecnología son ChatGPT, Dall-E, Copilot, etcétera.

Es importante diferenciar este tipo de tecnología con la inteligencia artificial que ha existido entre nosotros desde hace más de 60 años, la cual, naturalmente, ha ido evolucionando con el diseño de nuevos materiales, la investigación y el volumen de datos disponibles. En las últimas dos décadas, las grandes plataformas que gobiernan Internet han utilizado algoritmos de inteligencia artificial principalmente para mejorar sus sistemas de recomendación de contenido (amigos, productos, fotos, videos, etc.), y para ello han utilizado los datos generados por los usuarios en sus respectivas plataformas.

Entonces no es la primera vez que Meta, Google, Amazon, Apple u otra compañía entrenan modelos de IA tomando como fuente nuestros datos. La diferencia es que esta vez la cantidad de datos utilizados necesarios para el entrenamiento de estos modelos de inteligencia artificial generativa es mucho más grande y variada (imágenes, párrafos completos, audio, video) que antes.

Lo que hacen estos modelos es identificar patrones y estilos en los textos, imágenes, videos o audios con el objetivo de replicarlos y generar nuevos elementos. Esto nos lleva al siguiente paso.

Cómo funciona

En un post anterior ya explicamos cómo fue que llegamos a ChatGPT y cómo funciona esta tecnología. De forma similar en el caso de otros modelos de generación de imágenes o código, se utilizan redes neuronales para identificar patrones en los datos de entrada y, a partir de estos patrones, generar nueva información. La capacidad de esta tecnología para identificar estos patrones en datos no estructurados (imágenes, libros, videos y música) la hace particularmente atractiva para toda la información que hemos generado desde los inicios de Internet y especialmente en redes sociales.

Debido a que la cantidad de datos requeridos para el entrenamiento es gigantesca, el aprendizaje no puede hacerse en tiempo real, es decir que trabajan con información recolectada hasta cierta fecha (cutoff date). Por ejemplo, la primera versión de ChatGPT fue entrenada únicamente con datos previos a septiembre del 2021; posteriormente pueden lanzarse versiones con ajustes menores, pero la información base mantiene una fecha de corte.

Muchas plataformas han optado por «conectarse» a Internet y que sus respuestas sean un resumen de los resultados que han podido encontrar. Esto con el fin de citar fuentes de información.

Por qué es necesario tanta información

Si tomamos en cuenta los modelos que generan texto, estos buscan interactuar con los usuarios casi de forma natural como si fuera otro ser humano. Y para poder replicar las variaciones, dialectos, jergas y estilos de escritura de un ser humano es necesario una gran cantidad de datos que permita justamente entender el contexto y el marco general. Esto ayuda a que los conceptos sean menos ambiguos, evitar sesgos y mejorar la calidad de las respuestas dadas por el modelo, haciéndolo más «natural».

Los problemas

Debido a que estos modelos aprenden patrones de los datos que fueron utilizados para entrenamiento, es posible que, dada una instrucción (prompt injection), la respuesta del modelo incluya información confidencial de una empresa o datos personales. Esto es más probable en modelos de los cuales no se sabe mucho sobre los datos que fueron utilizados para el entrenamiento. Para evitar difundir esta información, muchas plataformas realizan un control sobre lo que el usuario solicita y buscan mitigar que la salida de estos modelos sea lo menos dañina posible. Otras empresas, se encargan de enmascarar datos sensibles antes del entrenamiento, quedándose solo con la estructura de la información, la cual alimenta al modelo. De esta manera, no es posible un filtrado de datos en su salida.  Esto todavía sigue siendo un trabajo en proceso y cada empresa está mostrando su propia perspectiva.

El panorama actual nos dice que estamos en una carrera sobre qué empresa desarrollará la mejor herramienta de IA generativa, o la más popular. Si bien OpenAI, con el financiamiento de Microsoft, fue la que dio el primer gran paso en el ecosistema, plataformas con mayor tiempo en el mercado como Google, Meta o Apple decidieron incursionar también en esta aventura.

Por lo visto anteriormente, el volumen de datos utilizados para el entrenamiento de estos productos es esencial para un buen resultado. Para ello, cada empresa está dispuesta a hacer uso de los datos que los usuarios han subido a sus respectivas plataformas. Por ejemplo:

  • ChatGPT [OpenAI]: Puede utilizar el contenido que el usuario sube a su plataforma para el entrenamiento de próximos modelos, más precisos, mejores en tareas específicas, capacidades y seguridad.
    «When you share your content with us, it helps our models become more accurate and better at solving your specific problems and it also helps improve their general capabilities and safety.»
  • Gemini [Google]«Google recopila tus conversaciones de Gemini Apps, información relacionada con el uso de productos, información sobre su ubicación y sus comentarios … para ofrecer, mejorar y desarrollar productos, servicios y tecnologías de aprendizaje automático de Google, incluidos los productos empresariales de Google, como Google Cloud».
  • Copilot [Microsoft]: «Específicamente la versión disponible en el navegador Edge. En función del aviso del usuario y su consentimiento para compartir datos con Microsoft, Microsoft Edge puede enviar datos pertinentes a Copilot. Para preguntas que no necesitan un contexto de exploración, como «Ayúdeme a planear un viaje a Manhattan», Edge comparte la dirección URL, el título de la página, la consulta del usuario y el historial de conversaciones anteriores para ayudar a Copilot responder a su pregunta de forma eficaz».
  • Meta AI [Meta]:  «… Usamos información online disponible públicamente e información con licencia. También utilizamos la información que compartiste en los productos y servicios de Meta. Por ejemplo, publicaciones o fotos con sus descripciones. No usamos el contenido de tus mensajes privados con amigos y familiares para entrenar a nuestras IA.»

Alternativas

Ante este escenario ¿qué pueden hacer los usuarios de estas plataformas? Eso depende de la regulación existente en cada país y los mecanismos disponibles por cada plataforma.

  • OpenAI: OpenAI cuenta con un portal (https://privacy.openai.com/policies) donde el usuario puede solicitar, entre otras cosas, detener el entrenamiento de nuevos modelos a partir de sus datos. También puede solicitar la descarga de tus datos o borrar tu cuenta.
  • Gemini [Google]: Al ser un producto de Google, es posible gestionar tu actividad a través de su plataforma en myactivity.google.com/product/gemini.

Esto implica poder eliminar tu contenido, configurar una eliminación automática (3, 18 o 36 meses). En caso la actividad esté desactivada, Gemini mantiene las conversaciones guardadas por hasta 72 horas para prestar el servicio.

  • Copilot [Microsoft]: En el caso de la versión de Copilot disponible en el navegador Edge, es posible deshabilitar que Copilot acceda al contenido de la página siguiendo los siguientes pasos:
    • Configuración de Microsoft Edge > Barra lateral > Configuración de apps y notificaciones > Copilot > Permitir a Copilot que acceda al contenido de la página web».
  • Meta AI [Meta]: En países con un marco regulatorio más fuerte (países de la Unión Europea, Reino Unido o Brasil), Meta ha dispuesto de un formulario acorde a su base legal. Este permite a sus usuarios que sus datos no sean utilizados en el entrenamiento de su inteligencia artificial generativa.

Para países de latinoamérica, como Perú, es posible evitar que nuestro contenido sea fuente de entrenamiento haciendo un cambio en el tipo de visibilidad de nuestras publicaciones. La IA de Meta se entrena con publicaciones en modo público y contenido de la web. Hacer el cambio a modo ‘privado’, evitará que tu contenido sea parte de ese nuevo volumen de entrenamiento.

Esta última opción puede ser un inconveniente para aquellos artistas que por muchos años han utilizado plataformas como Facebook e Instagram para crear una comunidad, al punto que se ha convertido en una parte importante de sus ingresos y comisiones independientes. En ese sentido, existe la posibilidad de publicar sus fotos e ilustraciones sin que los modelos de inteligencia artificial generativa puedan «aprender» de sus estilos y que al mismo tiempo sean imperceptibles por el ojo humano. Por ejemplo, en la Universidad de Chicago se desarrolló The Glaze Project, que promete proteger a los creativos humanos contra los usos invasivos de la inteligencia artificial generativa o GenAI.

Tres riesgos para los derechos humanos en la propuesta de Reglamento peruano de IA

El 2 de mayo, la Secretaría de Transformación y Gobierno Digital (SGTD) publicó la propuesta de Reglamento (en adelante, la propuesta de Reglamento) de la Ley N°31814, Ley que promueve el uso de la Inteligencia Artificial en favor del desarrollo económico y social del país (en adelante, la Ley de Promoción de IA). Asimismo, dispuso de un plazo para recibir comentarios o sugerencias, el cual finalizó este sábado 1 de junio,fecha en la que la SGTD también realizó una sesión pública virtual de participación ciudadana a fin de exponer un resumen del Proyecto y recopilar sugerencias.
Leer más

Importando leyes: nueva Ley de IA europea, nuevo Proyecto de Ley para regular la IA en el Perú

El día de hoy 13 de marzo, tras el debate en la sesión plenaria, el Parlamento Europeo aprobó con 523 votos a favor, 46 en contra y 49 abstenciones la Ley de Inteligencia Artificial de la Unión Europea (conocida también como el AI Act). Asimismo, exactamente hace un mes, el pasado 13 de febrero, el partido político Podemos Perú presentó el Proyecto de Ley 7033/2023-CR, Ley que Regula el Desarrollo y Uso de la Inteligencia Artificial en el Perú. Un proyecto que tiene una clara influencia de la Ley europea y con un objetivo similar a la ya vigente Ley 31814, Ley que promueve el uso de la Inteligencia Artificial en favor del desarrollo económico y social del país, publicada en julio del año pasado (2023). En este artículo analizamos el Proyecto de Ley, su relación con la actual Ley 31814, y su inspiración: el AI Act. Leer más

¿Uso obligatorio de la Inteligencia Artificial en entidades públicas? Una propuesta con muchas carencIAs

El pasado 31 de enero de 2024, la congresista Jackeline Katy Ugarte Mamani, integrante del Grupo Parlamentario Unidad y Diálogo Parlamentario, presentó el Proyecto de Ley 6927/2023-CR, denominado “Ley que obliga el uso de la Inteligencia Artificial en las entidades públicas”. El sucinto proyecto señala como finalidad lograr la efectividad en el servicio público. Para ello, propone modificar la Ley de Procedimiento Administrativo General para obligar a todas las entidades públicas, bajo responsabilidad funcional, a implementar herramientas de inteligencia artificial (IA), tanto en su actividad administrativa como en la prestación de servicios públicos. En este artículo veremos qué retos genera esta iniciativa legislativa.  Leer más

La municipalidad de Lima está vulnerando la Constitución

A través de sus distintas redes sociales, la Municipalidad Metropolitana de Lima ha dado a conocer, a través de sus distintas redes sociales, que utiliza cámaras de vigilancia con reconocimiento facial en espacios públicos y, particularmente, en contexto de protestas y movilizaciones sociales. Aquí te contamos por qué ello es inconstitucional.

El derecho a la protección de datos personales como un derecho fundamental

El derecho a la protección de datos personales es un pilar fundamental consagrado en nuestra Constitución y sustentado por una legislación específica que respalda su desarrollo constitucional. Nuestra Carta Magna reconoce este derecho en su artículo 2.6 y lo consagra como un mecanismo esencial para preservar la dignidad, la privacidad y la intimidad de cada persona, garantizando el control sobre la información personal que se recopila sobre nosotros.  Leer más

¿Qué tan inteligente es la Ley sobre Inteligencia Artificial aprobada en el Congreso?

El pasado jueves 25 de mayo se aprobó en el Pleno del Congreso el Proyecto de Ley 2775/2022-CR, Ley que promueve el uso de la Inteligencia Artificial en favor del desarrollo económico y social del país. Se trata de la primera norma aprobada por el Congreso cuyo objetivo se centra en la promoción de la Inteligencia Artificial (IA), y tuvo bastante éxito para alcanzar consenso: ingresado en agosto, el Proyecto tuvo dictámenes a favor en dos Comisiones, un texto sustitutorio y un último pedido de modificación antes de entrar a la agenda del día, y se aprobó casi por unanimidad (solo una abstención). Con la popularidad que herramientas como Chat-GPT o Dall-e han alcanzado, incluyendo su uso por algunos jueces para la administración de justicia, es claro que esta iniciativa no iba a pasar desapercibida. Sin embargo, ¿supone realmente una nueva regulación para la IA? ¿Cuál es su alcance y qué impactos podría tener su promulgación?

Contenido del proyecto de ley aprobado

El objeto de la ley propuesta, según su artículo 1, es promover el uso de la IA en el marco del proceso de transformación digital con la finalidad de fomentar el desarrollo económico y social del país, para lo cual se debe contar con un entorno seguro que, entre otros, asegure su uso ético.

En el resto de artículos, la norma propuesta se divide en cuatro partes principales:

  • Declaración de principios: En el título preliminar, se establecen principios para el desarrollo y uso de la inteligencia artificial, aunque muchos de ellos son extensibles fuera de este campo específico. Con ello, formarían parte del ordenamiento jurídico peruano principios como el de gobernanza de Internet (el cual también se pretendió formalizar en el Proyecto de Ley General de Internet), seguridad basada en riesgos, desarrollo ético como base fundamental para establecer el marco de responsabilidades en el uso de sistemas como la IA, privacidad, etc.
  • Declaración de interés nacional: Aunque solo se trate de un extremo declarativo de la norma, su enfoque es medular: señala que es de interés nacional la promoción del talento digital en el aprovechamiento de tecnologías emergentes, así como el fomento del desarrollo y uso de IA en la mejora de los servicios públicos, incluyendo la educación, la salud, la justicia, la seguridad ciudadana, la seguridad digital, los programas sociales, la defensa nacional, etc.
  • Definiciones: El texto (luego de las observaciones de la Secretaría de Gobierno y Transformación Digital, SGTD, para incorporar las recomendaciones OCDE) define la inteligencia artificial y la distingue de los sistemas basados en inteligencia artificial. Asimismo, define a las tecnologías emergentes y a los algoritmos.
  • “Roles” de la SGTD en materia de IA: La norma precisa que la autoridad nacional encargada de dirigir, evaluar y supervisar el uso y promoción de la IA es la SGTD, quien tiene a su cargo promover, entre otros: (i) el desarrollo de la IA y su adopción como herramienta que impulse el bienestar del país; (ii) la formación de profesionales competentes en la materia; (iii) la creación y fortalecimiento de infraestructura que habilite el desarrollo de la IA; (iv) la adopción de lineamientos éticos para su uso sostenible, transparente y replicable.
  • Informe anual: En el único extremo de la norma que propone una obligación jurídica concreta, el texto establece que la SGTD remitirá un informe anual al Congreso de la República sobre los avances en dos políticas públicas encaminadas a la fecha: la Política Nacional de Transformación Digital y la Estrategia Nacional de Inteligencia Artificial.

Alcances de la eventual norma

El objetivo central de la norma es la promoción de la inteligencia artificial. Sin embargo, ningún artículo desarrolla o establece alguna medida que, precisamente, la promueva: de hecho, el texto solo incluye una medida concreta (la obligación de reportar avances anualmente al Congreso), y su naturaleza es informativa, no de promoción. Por lo demás, establece definiciones y aprueba principios que pueden resultar orientadores, pero que no son nuevos para nuestro ordenamiento jurídico. Por ejemplo, el Marco de Confianza Confianza Digital, aprobado por Decreto de Urgencia 007-2020, ya establecía que las entidades públicas y las organizaciones del sector privado deben promover y asegurar el uso ético de tecnologías digitales como la IA. Incluso, desde 2019 se creó un Laboratorio de Gobierno y Transformación Digital del Estado a través del cual la SGTD debe promover el aprovechamiento de la IA (art. 2 de la Resolución SGD Nº 003-2019-PCM-SEGDI).

No solo ya existían estas disposiciones normativas referidas a la promoción de la IA por parte de la Secretaría, sino que ya existen instrumentos en construcción relacionados con la materia. Por ejemplo, la Estrategia de Talento Digital, la Política Nacional de Transformación Digital o la Estrategia Nacional de Inteligencia Artificial son instrumentos de política pública en los que la SGTD ya ha estado trabajando con participación de todas las partes interesadas, recogiendo comentarios y propuestas de mejora.

¿Necesitaban las entidades esta norma para empezar a utilizar la inteligencia artificial en sus procesos y/o servicios? En realidad, no. Por ejemplo, en 2021 se aprobó el Reglamento de la Ley Nº 30926, Ley que Fortalece la Interoperabilidad en el Sistema Nacional Especializado de Justicia, según el cual se promueve la adopción de tecnologías emergentes tales como la IA y la cadena de bloques para la prevención de la violencia contra las mujeres e integrantes del grupo familiar en entornos digitales. De otro lado, ese mismo año, la Superintendencia de Registros Públicos autorizó el servicio gratuito de orientación por agente virtual que brinda información empleando IA. Incluso, la Contraloría General de la República también habilitó al personal del Sistema de Control para hacer uso de mecanismos tecnológicos, incluyendo servicios de IA. En materia de salud, el personal del Instituto Nacional de Salud también está facultado a emplear la IA para el cumplimiento de sus funciones y garantizar o viabilizar la interoperabilidad con otras entidades.

Enfoques faltantes

A pesar de que el impacto del Proyecto aprobado sea bastante modesto, sí permite identificar el enfoque detrás del acercamiento del Congreso de la República a la IA. Nada más al definirla, el texto se aparta de una descripción técnica y asume a la IA como una herramienta tecnológica provechosa per sé, señalando su potencial para el beneficio económico y social, pero olvidando que tiene otras aplicaciones (algunas de ellas dañinas), a las cuales no se le deberían dejar de aplicar principios como el de desarrollo ético, privacidad, etc.

A la vez, como se advierte del artículo 2 (“interés nacional”), el presupuesto es que la IA debe ser utilizada para mejorar servicios públicos en su más amplio alcance, desde la administración de justicia hasta la seguridad ciudadana. Sin embargo, es importante advertir que la automatización de la toma de decisiones y la gran capacidad de análisis de datos que tiene la hacen susceptible de ocasionar impactos a gran escala sobre los derechos de las personas. En ese sentido, deben también explorarse otros enfoques:

    • Más evidencia y menos tecnosolucionismo: Aunque nos gustaría creer que hay soluciones tecnológicas sencillas para problemas humanos muy complejos, lo cierto es que la política pública debe estar orientada por evidencia. La prisa e inmediatez para ir al ritmo del desarrollo de las tecnologías es peligrosa porque no permite un adecuado análisis de impacto en derechos humanos (y, a la larga, puede incluso significar candados normativos para la innovación).
    • Servicios públicos sin discriminación: Es importante también reparar en la gravedad de permitir que las decisiones importantes sean tomadas por la IA sin ningún tipo de protocolo o revisión. Los errores cometidos por la IA, en conjunto con su escalabilidad, son dramáticamente graves para los derechos humanos. Se trata de errores para nada inofensivos: está documentado que  el racismo y el sexismo son parte de la arquitectura y lenguaje de la tecnología, una cuestión que amerita atención y remediación. Los procesos de toma de decisión conducidos algorítmicamente requieren un contexto social y humano, y esto importa para todas las personas involucradas con este tipo de tecnologías a diario, con especial impacto para las personas de grupos marginalizados. Por eso, la incorporación de la IA a los servicios públicos debe contar con salvaguardas para los derechos humanos y otros estándares éticos que mitiguen estos riesgos.
    • Usos creativos y libre acceso a la cultura: Aunque aún no ha sucedido, cuando surjan iniciativas de regulación de la IA, debe tenerse en cuenta también a las personas usuarias de estas herramientas, sobre todo en su vertiente generativa, y no únicamente a las industrias. Para muchas personas, las IA generativas constituyen formas de expresión artística y cultural.

Sin duda, la aprobación de este Proyecto (y, en particular, la rapidez con que se le dio trámite y la cantidad de votos a favor que alcanzó) dan cuenta del interés del Congreso de la República por la Internet y las nuevas tecnologías. Esperemos que venga acompañado de un adecuado debate, asesoramiento y convocatoria a personas con experiencia en la materia.