Data for Breakfast en todo el mundo

Multiplica el impacto de tu organización con datos e inteligencia basada en agentes de IA.

¿Qué es el aprendizaje autosupervisado (SSL)? Guía completa

Explora el aprendizaje autosupervisado (SSL), su proceso, sus tipos, las aplicaciones en el procesamiento del lenguaje natural (PLN) y la visión artificial, y cómo transforma la empresa.

  • Descripción general
  • ¿Qué es el aprendizaje autosupervisado?
  • ¿Cómo funciona el aprendizaje autosupervisado?
  • Aprendizaje autosupervisado, supervisado y no supervisado
  • ¿Por qué es necesario el aprendizaje autosupervisado?
  • Ventajas del aprendizaje autosupervisado
  • Desafíos del aprendizaje autosupervisado
  • Aplicaciones y ejemplos del aprendizaje autosupervisado
  • Conclusión
  • Preguntas frecuentes sobre el aprendizaje autosupervisado
  • Clientes que usan Snowflake
  • Recursos de Snowflake

Descripción general

El aprendizaje autosupervisado (SSL) es una técnica de aprendizaje automático (ML) que tiende un puente entre los métodos supervisados y no supervisados. Aborda el reto de entrenar modelos de IA con grandes volúmenes de datos etiquetados, cuya creación es costosa y requiere mucho tiempo. En su lugar, el aprendizaje autosupervisado consiste en entrenar los modelos de IA directamente con datos brutos sin etiquetar, generando sus propias señales de entrenamiento.

Al reducir la dependencia del etiquetado manual, el aprendizaje autosupervisado permite que los modelos de IA escalen de forma más eficiente y aprendan representaciones útiles. El aprendizaje autosupervisado está impulsando avances en el procesamiento del lenguaje natural (PLN), la visión artificial y el reconocimiento de voz, y ayuda a las organizaciones a acelerar sus iniciativas de IA y a ampliar el alcance de sus aplicaciones prácticas.

En este artículo, exploramos lo que hace único al aprendizaje autosupervisado y por qué cada vez es más importante para impulsar nuevas aplicaciones de IA en distintos sectores.

¿Qué es el aprendizaje autosupervisado?

El aprendizaje autosupervisado es una forma de aprendizaje automático (ML) que permite a los modelos aprender a partir de datos sin etiquetar. Combina elementos de los métodos de entrenamiento supervisados y no supervisados, pero se diferencia de ambos en lo siguiente:

  • El aprendizaje supervisado se basa en conjuntos de datos en los que cada ejemplo ha sido etiquetado por personas.

  • El aprendizaje no supervisado trabaja con datos sin procesar para identificar patrones o clústeres ocultos.

  • El aprendizaje autosupervisado genera sus propias pseudoetiquetas o señales de entrenamiento directamente a partir de la estructura de los datos. 

Al generar sus propias señales, el aprendizaje autosupervisado entrena a los modelos para que aprendan representaciones útiles sin necesidad de llevar a cabo un etiquetado manual exhaustivo por parte de expertos humanos. Esto lo convierte en un enfoque práctico y escalable para crear sistemas de IA capaces de adaptarse a tareas del mundo real complejas.

¿Cómo funciona el aprendizaje autosupervisado?

Para ser eficaz, un modelo de IA debe “aprender” con la ingesta de grandes volúmenes de datos que fundamenten sus respuestas y análisis. En el aprendizaje automático tradicional, la supervisión se refiere al uso de datos etiquetados creados por expertos humanos que etiquetan manualmente los datos de entrada con el resultado correcto (p. ej., clasificar una imagen como “coche” o etiquetar el sentimiento de una frase como “positivo”).

Este aprendizaje supervisado proporciona al modelo una clave de respuestas, esencial para entrenar sistemas con un alto nivel de precisión. Sin embargo, la supervisión manual es demasiado costosa y lenta para ser una solución viable para los enormes conjuntos de datos disponibles en la actualidad, que además no dejan de crecer.

El aprendizaje autosupervisado aborda este problema al convertir los datos brutos sin etiquetar en una fuente de supervisión. En lugar de depender de costosos conjuntos de datos etiquetados, el aprendizaje autosupervisado utiliza los propios datos para generar señales de entrenamiento. Este proceso ayuda a los modelos de ML a aprender patrones y representaciones que posteriormente pueden aplicarse a problemas del mundo real.

El mecanismo en el que se basa el aprendizaje autosupervisado consta de dos etapas clave: las tareas de pretexto y las tareas posteriores.

Las tareas de pretexto son desafíos artificiales diseñados a partir de los propios datos. Al resolverlos, el modelo aprende a captar la estructura significativa de los datos. Por ejemplo:

  • En el procesamiento del lenguaje natural, el modelo predice las palabras que faltan en una oración.

  • En la visión artificial, el modelo determina si una imagen se ha rotado o bien completa los píxeles que faltan.

  • En el reconocimiento de voz, el modelo identifica si dos muestras de audio proceden del mismo hablante.

Dado que estas tareas no requieren etiquetas manuales, permiten a los modelos entrenarse con conjuntos de datos masivos que, de otro modo, serían demasiado costosos o cuya anotación llevaría demasiado tiempo.

Las tareas posteriores son las aplicaciones del aprendizaje automático en el mundo real, como la clasificación de textos, el reconocimiento de imágenes o la conversión de voz a texto. Una vez que el modelo se ha preentrenado con tareas de pretexto, las representaciones aprendidas se transfieren a tareas posteriores, que a menudo solo requieren un ajuste fino supervisado mínimo.

Aprendizaje autosupervisado, supervisado y no supervisado

Aprendizaje autosupervisado o aprendizaje supervisado

El aprendizaje supervisado requiere grandes conjuntos de datos etiquetados, en los que cada entrada se asocia a un resultado correcto. Por ejemplo, los modelos de clasificación de imágenes se entrenan con conjuntos de datos en los que cada imagen tiene una etiqueta, como “gato” o “perro”. Estas etiquetas proporcionan señales de entrenamiento claras, pero su creación a gran escala es costosa y requiere mucho tiempo. ​A pesar del coste, el aprendizaje supervisado es un método preferido y eficaz para tareas que exigen la máxima precisión, como diagnósticos médicos críticos o la detección de fraude financiero, donde el coste del error es extremadamente alto.

Con el aprendizaje autosupervisado, no es necesario etiquetar los datos manualmente. Este tipo de aprendizaje genera pseudoetiquetas directamente a partir de datos sin procesar mediante tareas de pretexto, como predecir palabras que faltan o la rotación de imágenes. Esto permite que los modelos se entrenen automáticamente con grandes volúmenes de datos sin etiquetar, de forma más rápida y mucho más eficiente en términos de recursos que el aprendizaje supervisado.

 

Aprendizaje autosupervisado o aprendizaje no supervisado

El aprendizaje no supervisado también se basa en datos sin etiquetar, pero la señal de entrenamiento es diferente. En el aprendizaje no supervisado, los modelos suelen agrupar o reducir los datos, por ejemplo, creando clústeres de segmentos de clientes o comprimiendo los datos para reducir sus dimensiones. Estos métodos identifican patrones, pero a menudo no generan representaciones que se transfieran bien a otras tareas. Por ejemplo, un modelo no supervisado podría clasificar correctamente una colección de documentos en cinco clústeres temáticos. Sin embargo, el conocimiento derivado de esa agrupación rara vez es suficiente por sí solo para impulsar un sistema independiente y preciso, como una aplicación de traducción lingüística en tiempo real.

El aprendizaje autosupervisado se diferencia en que genera tareas estructuradas a partir de datos sin procesar; esto impulsa al modelo a aprender características que pueden luego aplicarse a tareas posteriores del mundo real. Por ejemplo, un modelo entrenado para predecir palabras enmascaradas aprende patrones lingüísticos que luego se transfieren a la clasificación de textos o a sistemas de respuesta a preguntas.

 

Aprendizaje autosupervisado o aprendizaje semisupervisado

El aprendizaje semisupervisado combina una pequeña cantidad de datos etiquetados con un mayor volumen de datos sin etiquetar. La parte etiquetada sirve de anclaje para el modelo, como una guía de alta precisión, mientras que la parte no etiquetada aporta contexto adicional. Por ejemplo, una IA de moderación de contenido podría utilizar un pequeño conjunto de imágenes o comentarios etiquetados manualmente como inapropiados, junto con millones de publicaciones sin etiquetar, a fin de entrenar el modelo para identificar contenido similar a gran escala.

El aprendizaje autosupervisado no depende ni siquiera de un pequeño conjunto de datos etiquetados. Genera etiquetas automáticamente a partir de los propios datos, lo que lo hace especialmente valioso en ámbitos donde los datos etiquetados son limitados o costosos, como las imágenes médicas o el reconocimiento de voz.

¿Por qué es necesario el aprendizaje autosupervisado?

El aprendizaje autosupervisado aborda uno de los mayores desafíos del desarrollo de la IA: la dependencia de grandes conjuntos de datos etiquetados (aprendizaje supervisado). Entre los obstáculos asociados a esta dependencia se incluyen:

  • Coste y tiempo: Etiquetar manualmente conjuntos de datos enormes es caro y lento.

  • Escasez de datos etiquetados: En ámbitos especializados, como textos jurídicos o datos empresariales propios, los ejemplos etiquetados son escasos, lo que dificulta entrenar modelos de forma eficaz.

El aprendizaje autosupervisado (SSL) supera estas limitaciones al utilizar el enorme volumen de datos brutos sin etiquetar que ya existe para generar sus propias señales de supervisión y aprender representaciones útiles sin un trabajo manual significativo. Esto permite entrenar modelos a gran escala de forma más eficiente en ámbitos clave, como:

  • Procesamiento del lenguaje natural: SSL permite entrenar large language models (LLM) con datos textuales globales sin anotación manual.

  • Visión artificial y reconocimiento de voz: SSL reduce la necesidad de esfuerzo humano en el etiquetado de imágenes o la transcripción de audio, y mejora la precisión del modelo.

Ventajas del aprendizaje autosupervisado

El aprendizaje autosupervisado ofrece varias ventajas que lo hacen idóneo para los sistemas de IA modernos. Entre las ventajas del SSL se incluyen:

 

Reducción de la dependencia de datos etiquetados

El aprendizaje autosupervisado elimina la necesidad de etiquetar datos manualmente al generar sus propias señales de entrenamiento directamente a partir de datos sin procesar. Esta capacidad permite a las organizaciones entrenar modelos con una mayor variedad de conjuntos de datos e incorporar datos de múltiples fuentes, lo que amplía el contexto de la IA para las analíticas y agiliza la generación de valor. Este método también facilita la extensión de las capacidades de la IA a entornos complejos, como el análisis especializado de imágenes médicas, donde la disponibilidad de datos etiquetados es limitada.

 

Uso rentable de los datos

Los modelos de aprendizaje autosupervisado generan sus propias señales de entrenamiento directamente a partir de los datos de entrada, lo que minimiza la necesidad de costosas anotaciones humanas. Al utilizar la estructura de los datos sin etiquetar existentes, el aprendizaje autosupervisado aumenta el valor de los activos de datos sin los costes adicionales del etiquetado. Esto hace que el aprendizaje autosupervisado sea especialmente valioso en ámbitos con un uso intensivo de datos, donde la información sin etiquetar es abundante.

 

Mejora de la generalización y del aprendizaje por transferencia

Los modelos de aprendizaje autosupervisado capturan patrones subyacentes en los datos que se transfieren bien a nuevas tareas. Con un ajuste fino supervisado, el mismo modelo puede adaptarse a múltiples aplicaciones posteriores.

 

Escalabilidad para grandes conjuntos de datos

El etiquetado manual no es viable para los enormes conjuntos de datos actuales. El aprendizaje autosupervisado permite a los sistemas de IA aprender directamente de los datos sin procesar, lo que posibilita que los modelos crezcan a medida que aumentan los volúmenes de datos.

 

Mejora del rendimiento del modelo

Al aprender a partir del contexto completo de los datos, los modelos de SSL suelen obtener mejores resultados en tareas posteriores que los modelos entrenados únicamente con métodos supervisados.

Desafíos del aprendizaje autosupervisado

Aunque el aprendizaje autosupervisado ofrece claras ventajas, también plantea desafíos que las organizaciones deben abordar durante su implementación. Entre estos desafíos se incluyen:

 

Complejidad computacional

Entrenar modelos de aprendizaje autosupervisado suele requerir procesar grandes volúmenes de datos sin etiquetar durante periodos prolongados. Esto puede exigir importantes recursos de hardware y en la nube, lo que se traduce en mayores costes de computación en comparación con el entrenamiento de modelos supervisados más pequeños.

 

Diseño eficaz de tareas de pretexto

El aprendizaje autosupervisado depende de tareas de pretexto bien diseñadas. Si la tarea es demasiado sencilla, el modelo puede aprender características que no resultan útiles. Si la tarea está mal diseñada, las representaciones aprendidas pueden no transferirse de forma eficaz. Diseñar tareas eficaces requiere conocimiento del dominio y pruebas iterativas, que deben completarse antes de poner en marcha iniciativas de aprendizaje autosupervisado.

 

Evaluación del rendimiento del modelo

En el aprendizaje supervisado, métricas como la exactitud o la precisión proporcionan información directa durante el entrenamiento. El aprendizaje autosupervisado no ofrece este tipo de medidas inmediatas. La calidad del modelo a menudo solo se aprecia tras aplicar las representaciones aprendidas a tareas posteriores; esto genera una retroalimentación diferida y dificulta la optimización.

 

Riesgo de correlaciones espurias

Dado que el aprendizaje autosupervisado se basa en pseudoetiquetas generadas a partir de datos sin procesar, las señales pueden ser a veces incompletas o incluir ruido. Sin supervisión humana, los modelos pueden captar sesgos o correlaciones indeseadas en los datos de entrenamiento que afecten a las aplicaciones posteriores.

Aplicaciones y ejemplos del aprendizaje autosupervisado

El aprendizaje autosupervisado respalda una amplia variedad de aplicaciones en distintos sectores al permitir que las empresas extraigan valor de los datos sin etiquetar. Entre las aplicaciones de SSL se incluyen:

 

Procesamiento del lenguaje natural

El aprendizaje autosupervisado impulsa LLM, como BERT y GPT, que se entrenan con enormes conjuntos de datos textuales. Estos modelos permiten realizar tareas como la clasificación de textos, la respuesta a preguntas, la traducción y la generación de contenido.

 

Visión artificial

El aprendizaje autosupervisado permite a los modelos aprender a partir de grandes colecciones de imágenes y vídeos sin necesidad de anotación manual. Entre sus aplicaciones se incluyen la detección de objetos, la segmentación de imágenes y las imágenes médicas.

 

Reconocimiento de voz y procesamiento de audio

El aprendizaje autosupervisado entrena modelos para predecir partes que faltan o que están enmascaradas en una grabación a fin de ayudar a los sistemas a identificar y aprender patrones que se producen en el sonido bruto. Esto se traduce en transcripciones de mayor calidad, asistentes de voz más eficientes y una identificación de idiomas más fiable.

 

Detección de fraude y de anomalías

En el sector financiero, el aprendizaje autosupervisado analiza patrones en los datos de transacciones para identificar irregularidades o desviaciones sutiles. Estas representaciones ayudan a los sistemas a señalar posibles fraudes y a adaptarse a nuevos patrones de fraude a medida que surgen.

 

Sistemas de recomendación

El aprendizaje autosupervisado puede aprovechar señales implícitas, como clics y visualizaciones, junto con una cantidad limitada de datos etiquetados. De este modo, mejora la personalización al adaptar las sugerencias de productos, la publicidad y las recomendaciones de contenido.

 

Vehículos autónomos y robótica

El aprendizaje autosupervisado permite que los vehículos y los robots aprendan a partir de flujos continuos de datos sin procesar procedentes de sensores y vídeos. Este entrenamiento refuerza la estimación de profundidad, la navegación y la predicción de objetos, aspectos esenciales para un funcionamiento seguro en entornos reales.

Conclusión

El aprendizaje autosupervisado se está convirtiendo rápidamente en un método clave para entrenar sistemas de IA a gran escala. Al generar señales de entrenamiento directamente a partir de datos sin etiquetar, el aprendizaje autosupervisado reduce la dependencia del etiquetado manual y permite crear modelos capaces de adaptarse a una amplia variedad de tareas. 

A medida que el volumen de datos crece, el aprendizaje autosupervisado ofrece una forma práctica de desarrollar modelos de IA escalables y eficientes en ámbitos donde los datos etiquetados son escasos y, en cambio, abundan los datos sin procesar. Este enfoque está impulsando el progreso del procesamiento del lenguaje natural, la visión artificial, el reconocimiento de voz y muchos otros sistemas esenciales para el negocio.

Preguntas frecuentes sobre el aprendizaje autosupervisado

Los algoritmos de aprendizaje supervisado se utilizan principalmente para tareas de clasificación y regresión con conjuntos de datos etiquetados. Algunos ejemplos comunes son la regresión lineal, la regresión logística, los árboles de decisión, los bosques aleatorios y las máquinas de vectores de soporte (SVM).

Sí, ChatGPT se entrena mediante aprendizaje autosupervisado. El modelo aprende patrones lingüísticos mediante la predicción de partes del texto a partir de grandes volúmenes de datos sin etiquetar, en lugar de depender de etiquetas creadas manualmente por personas.

En el caso de los LLM, el aprendizaje autosupervisado consiste en predecir partes que faltan o que están enmascaradas en una secuencia de texto en función del contexto circundante. Este método de entrenamiento permite al modelo captar la gramática, el significado y las relaciones del lenguaje sin anotación manual.

Ambos utilizan datos sin etiquetar, pero sus objetivos de entrenamiento difieren:

  • El aprendizaje no supervisado se centra en descubrir la estructura y los patrones de los datos. A menudo funciona realizando agrupaciones o clústeres de datos para identificar patrones y simplificar la complejidad, pero no intenta encontrar una respuesta específica “correcta”.

  • El aprendizaje autosupervisado crea un objetivo o desafío específico que el modelo debe resolver generando sus propias etiquetas (pseudoetiquetas) a partir de los datos. Este proceso proporciona al modelo un objetivo medible, lo que le permite aprender representaciones de datos sólidas y reutilizables, altamente eficaces para otras tareas de IA.