Entre humo y horizonte: Respondemos a cómo fue que llegamos a ChatGPT y otras preguntas

Al día de hoy es prácticamente imposible no haber escuchado de ChatGPT. En clase, en el trabajo o mientras navegamos en nuestra red social favorita hemos visto distintas historias de cómo utilizar esta nueva herramienta para simplificar nuestro trabajo, generar contenido y un sinfín de aplicaciones. Sin embargo, en muchos casos, se está generando una percepción errónea sobre las verdaderas capacidades de ChatGPT. 

Para ello, abordaremos, en primer lugar, un poco de la historia y algunos conceptos fundamentales de esta tecnología en tendencia. Posteriormente tocaremos otros temas como la regulación, los mecanismos de moderación para evitar «contaminar» la herramienta y otros posibles impactos de esta tecnología en diversos sectores. 

¿Cómo llegamos hasta este punto?

ChatGPT, una herramienta web desarrollada por la empresa OpenAI que permite interacción de forma conversacional, fue lanzada a finales de 2022 con una gran acogida por millones de usuarios. ChatGPT es un producto desarrollado tomando como base GPT-3 (2020), un modelo de lenguaje (específicamente un large language model – LLM o gran modelo de lenguaje). Estos modelos se caracterizan por su capacidad de generar texto similar al que podría generar una persona. Esta característica la hace parte del grupo de modelos generativos, junto con otras aplicaciones como Dall-E, que genera imágenes a partir de una descripción en texto (comúnmente llamada prompt).

La evolución de GPT-3, como cualquier otra tecnología, ha pasado por distintas etapas con múltiples mejoras y características en cada una de ellas. Los primeros indicios de texto generado por un modelo de inteligencia artificial nos remontan hasta los años 80, con el uso de redes neuronales recurrentes (RNN). A pesar de que con esta técnica era posible predecir algunas palabras para generar oraciones, su principal problema era que fácilmente perdían sentido o coherencia a medida que el texto se hacía más largo. 

Ante esta situación, en 1997 se presenta el artículo “Long Short-Term Memory (LSTM)”. Este resuelve el problema modificando la estructura de las RNN y permitiéndoles procesar palabras de forma secuencial (palabra por palabra) y encontrar un tipo de dependencia entre ellas o «recordar» información de palabras pasadas. Esta característica permitió que los modelos de lenguaje tengan la capacidad de asociar gramaticalmente palabras en cantidad, género, etc. Producto de esta nueva técnica, que se sigue utilizando hasta hoy, son la traducción automática, el reconocimiento de voz, el análisis de sentimiento y muchas más. 

El 2017 fue un año crucial en la evolución en el campo de la inteligencia artificial con la publicación del artículo «Attention is all you need» por un grupo de investigadores, principalmente de Google Research. Este artículo presenta un nuevo tipo de red neuronal llamada Transformers. Esta nueva estructura tiene muchas ventajas respecto a sus antecesoras RNN o LSTM ya que permiten un procesamiento de secuencias de palabras como un todo en vez de palabra tras palabra. Además, un nuevo concepto llamado self-attention permite «entender» el contexto de una palabra dentro de toda una oración. Otra ventaja de los Transformers es su capacidad de procesar información en paralelo, haciendo que el tiempo de entrenamiento del modelo sea mucho más rápido. Sin embargo, se hace necesario un mayor volumen de datos para mejores resultados. Los Transformers iniciaron una nueva era del campo del procesamiento de lenguaje natural (NLP) permitiendo el desarrollo de herramientas como la traducción en tiempo real, por ejemplo. 

Ahora que conocemos un poco más del camino que se tuvo que recorrer para llegar a ChatGPT podemos plantearnos nuevas preguntas. 

Si estas tecnologías ya existían desde hace años, ¿qué la hace especial esta vez? 

La cantidad de datos. Los modelos de lenguaje, como en la mayoría de herramientas basadas en inteligencia artificial, requieren de muchos datos y de mucho poder de cómputo para obtener resultados más precisos. OpenAI, la empresa desarrolladora de ChatGPT, previamente ya había lanzado algunos modelos GPT (Generative Pre-trained Transformer) y GPT-2 en el año 2018 y 2019, respectivamente, sin generar tanto revuelo a nivel público. Sin embargo, no es hasta el año 2020, con el lanzamiento de GPT-3, que alcanzan mucha más notoriedad, ya que el tamaño de este último era gigantesco a comparación de su antecesor. Además, no podemos pasar por alto la inversión a OpenAI que hizo Microsoft en el 2019 por aproximadamente 1 billón de dólares. Esto les permitió cubrir el problema de recursos computacionales para todo el proceso de entrenamiento y despliegue. Este acuerdo se renovó en 2021 y recientemente en enero del 2023. 

¿Cómo se mide el tamaño de estos modelos? 

Normalmente estos modelos se miden y describen por la cantidad de parámetros que se utilizan para su entrenamiento. Por ejemplo, GPT-3 es un modelo de lenguaje con 175 billones de parámetros, mientras que GPT-2 es un modelo de lenguaje con 1.5 billones de parámetros. Y el más reciente lanzamiento de OpenAI, GPT-4, tiene 1.5 trillones de parámetros.

Además de los parámetros, otro factor importante en la fase de entrenamiento de los modelos son los datos utilizados. Los modelos aprenden de los datos y de las relaciones que pueden encontrar entre ellos. 

Por ello, es importante resaltar que si los datos son imprecisos o falsos, entonces el texto generado como resultado del modelo de lenguaje podría tener los mismos resultados. Es decir, si los datos de los que se alimenta el modelo son datos son sesgados (sexistas, racistas, discriminatorios, desinformadores); los resultados producto del modelo también serán así. De esta manera, GPT-3 o cualquier otro modelo podrían ser contaminados si no existe un tratamiento adecuado a este tipo de comportamiento. Esto nos lleva al siguiente punto.

¿Cómo se mide la desinformación y la toxicidad en estos modelos de lenguaje?

OpenAI lanzó una nueva serie de modelos de lenguaje llamados InstructGPTs que involucran a personas o moderadoras en el proceso de generación del texto con una técnica llamada aprendizaje por refuerzo a partir de la retroalimentación humana o en inglés reinforcement learning from human feedback (RLHF). Para poder medir parámetros de «veracidad», «toxicidad» o algún tipo de contenido estereotipado estos modelos utilizan benchmarks como TruthfulQA para veracidad, Real Toxicity Prompts para toxicidad o DROP que permite evaluar la comprensión de párrafos en estos modelos de lenguaje. Estos mecanismos, en teoría, previenen que el modelo de lenguaje genere contenido falso, tóxico o reflejar sentimientos dañinos. Lamentablemente esto no ha detenido que algunos usuarios encuentren estrategias o caminos para hacer que el modelo los genere dándole la vuelta a estas evaluaciones.

¿Qué NO es ChatGPT?

ChatGPT es un modelo de lenguaje diseñado para generar texto basado en patrones estadísticos aprendidos a partir de una gran cantidad de texto disponible en internet

Este modelo, y otros similares como BARD (Google) y LLaMa (Meta) han utilizado en su entrenamiento datos que contienen una cantidad inmensa de información sobre la manera en la que las personas describimos y entendemos el mundo a través del texto. Por lo tanto, le ha sido posible encontrar reglas, dependencias y correlaciones entre estas palabras para poder generar oraciones lo suficientemente convincentes frente a la interacción con una persona. 

Sin embargo, una oración con una gramática correcta no significa que esta sea una verdad o certeza. ChatGPT tiene la capacidad de inferir que debe responder un número, aunque no sea capaz de hacer el cálculo para llegar a ese resultado. Aunque en su versión más reciente GPT-4, OpenAI se asoció con Wolfram Alpha para resolver este problema y brindarle «superpoderes de cálculo». 

ChatGPT tampoco es un buscador, aunque puede ser un complemento de los buscadores más comunes. Los modelos de lenguaje están compuestos principalmente por dos procesos, el proceso de entrenamiento y el proceso de inferencia. El entrenamiento es una fase más lenta y muy costosa, mientras que la inferencia ocurre luego de la fase de entrenamiento y es un proceso mucho más rápido. Debido al gran volumen de datos para entrenar estos modelos de lenguaje, estos utilizan una fecha tope sobre la que se entrenará el modelo. Esto hace que la información obtenida a través de la inferencia pueda ser un dato sin ser actualizado. Por ejemplo, ChatGPT utilizó datos hasta septiembre del 2021. 

Lo que se viene …

Los modelos de lenguaje como ChatGPT definitivamente han marcado un nuevo hito en la manera en la que interactuamos con las computadoras. Sin embargo, para una adopción responsable de esta tecnología, es necesario abordar retos como la moderación de contenido, impacto medioambiental, impacto en el discurso público, propiedad intelectual, uso adecuado de datos personales, etc.



Un comentario

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *