Los grandes modelos de lenguaje generativos pre-entrenados, como GPT3 y similares, son un tipo de arquitectura de redes neuronales profundas que actualmente se está utilizando con gran éxito en el campo de la Inteligencia Artificial. Estos modelos se aplican en tareas que requieren de la comprensión y generación del lenguaje humano.
Estos modelos generativos de lenguaje son grandes modelos neuronales de miles de millones de parámetros. Se pre-entrenan con extensas colecciones de textos mediante algoritmos de aprendizaje profundo, dotando al modelo de una capacidad general de comprensión y generación del lenguaje.
Una de las principales ventajas de estos modelos es que pueden aplicarse de forma directa para resolver una amplia gama de tareas relacionadas con el lenguaje humano. Esta aplicación directa es posible gracias al paradigma conocido como Aprendizaje en Contexto (In-Context Learning). Además, este paradigma permite un desarrollo escalable de tecnologías del lenguaje, ya que apenas se requieren de datos de ejemplo para ejecutar tareas del lenguaje.
Sin embargo, la construcción de modelos generativos de lenguaje y su aplicación mediante técnicas de Aprendizaje en Contexto plantea grandes desafíos.
El objetivo principal del proyecto consiste en generar conocimiento sobre modelos de lenguaje autorregresivos mediante la investigación de nuevos algoritmos y arquitecturas neuronales que permita adaptarlos a regímenes de cómputo y conjuntos de datos de preentrenamiento limitados y sobre su explotación óptima mediante algoritmos de Aprendizaje en Contexto en casos de uso clave del PLN.