Para ser eficaz, un modelo de IA debe “aprender” con la ingesta de grandes volúmenes de datos que fundamenten sus respuestas y análisis. En el aprendizaje automático tradicional, la supervisión se refiere al uso de datos etiquetados creados por expertos humanos que etiquetan manualmente los datos de entrada con el resultado correcto (p. ej., clasificar una imagen como “coche” o etiquetar el sentimiento de una frase como “positivo”).
Este aprendizaje supervisado proporciona al modelo una clave de respuestas, esencial para entrenar sistemas con un alto nivel de precisión. Sin embargo, la supervisión manual es demasiado costosa y lenta para ser una solución viable para los enormes conjuntos de datos disponibles en la actualidad, que además no dejan de crecer.
El aprendizaje autosupervisado aborda este problema al convertir los datos brutos sin etiquetar en una fuente de supervisión. En lugar de depender de costosos conjuntos de datos etiquetados, el aprendizaje autosupervisado utiliza los propios datos para generar señales de entrenamiento. Este proceso ayuda a los modelos de ML a aprender patrones y representaciones que posteriormente pueden aplicarse a problemas del mundo real.
El mecanismo en el que se basa el aprendizaje autosupervisado consta de dos etapas clave: las tareas de pretexto y las tareas posteriores.
Las tareas de pretexto son desafíos artificiales diseñados a partir de los propios datos. Al resolverlos, el modelo aprende a captar la estructura significativa de los datos. Por ejemplo:
En el procesamiento del lenguaje natural, el modelo predice las palabras que faltan en una oración.
En la visión artificial, el modelo determina si una imagen se ha rotado o bien completa los píxeles que faltan.
En el reconocimiento de voz, el modelo identifica si dos muestras de audio proceden del mismo hablante.
Dado que estas tareas no requieren etiquetas manuales, permiten a los modelos entrenarse con conjuntos de datos masivos que, de otro modo, serían demasiado costosos o cuya anotación llevaría demasiado tiempo.
Las tareas posteriores son las aplicaciones del aprendizaje automático en el mundo real, como la clasificación de textos, el reconocimiento de imágenes o la conversión de voz a texto. Una vez que el modelo se ha preentrenado con tareas de pretexto, las representaciones aprendidas se transfieren a tareas posteriores, que a menudo solo requieren un ajuste fino supervisado mínimo.