Motivos por los que una base robusta para los datos es la clave para el éxito de la IA generativa
Hace solo unos años, la mayoría de las empresas estaban planificando su transición a la nube o acababan de empezarla. Sin embargo, con la pandemia, la necesidad de cambiar drásticamente la forma de trabajar obligó a acelerar esa transición casi de la noche a la mañana. Era esencial disponer de una adaptabilidad rentable, y las empresas capaces de ampliar o reducir rápidamente sus recursos fueron las que salieron reforzadas de la pandemia. Todo gracias a la migración a la nube.
En la actualidad, las ventajas revolucionarias de la inteligencia artificial (IA) generativa están volviendo a alentar a las empresas a actuar con la misma decisión y celeridad. Esta vez, lo más importante es asegurarse de que los datos y la plataforma en la que se procesan estén preparados para los nuevos modelos de IA.
Sin embargo, todavía hay mucho por hacer en un entorno en el que el volumen, la velocidad, la complejidad y la variedad de los datos aumentan constantemente. Se estima que para 2025 se generarán 7 petabytes de datos cada día, en comparación con los “solo” 2,3 petabytes diarios de 2021. Además, no son datos de cualquier tipo: se estima que la mayoría (el 80 %) son datos no estructurados, como imágenes, vídeos y documentos, unos recursos a los que las empresas todavía no están sacando mucho partido.
Una gran discrepancia entre las aspiraciones y la realidad
En este mundo repleto de datos, las organizaciones saben que, a partir de ahora, su habilidad para competir dependerá de la disponibilidad, la veracidad y la accesibilidad de los datos que necesitan. Sin embargo, aunque en la actualidad el 83 % de los clientes de Accenture consideran que los datos en tiempo real van a ser esenciales para adquirir una ventaja competitiva en los próximos 2 años, solo el 31 % de ellos afirman gestionar eficazmente sus datos.
En otras palabras, hay una gran discrepancia entre las aspiraciones y la realidad. Dado que la necesidad de compartir datos de forma segura tanto dentro como fuera de la empresa se está volviendo fundamental, la capacidad de gestionar y crear flujos de datos fiables y robustos se ha convertido en algo clave. No obstante, actualmente el 55 % de las empresas admiten que no pueden rastrear el linaje de sus datos desde la fuente hasta el punto de conexión. Además, como hay datos tanto estructurados como sin estructurar almacenados en diversos silos con muchas ubicaciones distintas, tanto basadas en la nube como on-premise, las empresas se enfrentan a un gran desafío que deben superar si quieres seguir siendo competitivas.
Nuestra investigación respalda esta afirmación. Hemos descubierto que la probabilidad de que una empresa almacene sus datos en una plataforma de datos moderna y especializada en la nube es 2,4 veces mayor entre las empresas con los mejores resultados. Estas son algunas de las acciones clave que las diferencian: acabar con los silos de datos y con la duplicación, crear productos de datos fiables, reducir el coste de rectificación de los datos, garantizar una obtención de información más oportuna y casos de uso interfuncionales, y aumentar la adopción por parte de los usuarios.
Hacer realidad el valor de los datos propios
Para aprovechar al máximo las tecnologías a gran escala de aprendizaje automático (machine learning, ML) e IA generativa, las empresas deberán sean capaces de utilizar sus propios datos para proporcionar información y recomendaciones únicas que mejoren considerablemente el rendimiento. Llegados a ese punto, podrán pasar de interactuar con chatbots genéricos entrenados con datos de Internet a generar contenido muy relevante que se base en información empresarial actualizada y potencialmente confidencial.
Las empresas capaces de ejercer un control real sobre sus datos serán capaces de emplear la tecnología con fines mucho más focalizados y valiosos. Por ejemplo, piensa en una empresa de ciencias de la vida que utiliza un modelo entrenado exclusivamente con sus propios datos sobre productos y ensayos para predecir la probabilidad de éxito de un medicamento de una forma mucho más precisa, eficiente y rápida.
Muchas empresas modernas tienen operaciones, productos y cadenas de valor de gran alcance que generan datos a escala global y de una manera federada. Para crear modelos más focalizados y diferenciados, como el del ejemplo anterior, deben encontrar una forma de que los equipos compartan y accedan en entornos seguros y gobernados a datos almacenados en distintas nubes.
La solución idónea es poder usar los datos principales y más actualizados sin tener que copiarlos de una ubicación a otra y cumpliendo los requisitos normativos pertinentes, de forma que la IA los siga desarrollando.
Esta estrategia puede ayudar a no incurrir en costes de almacenamiento de datos elevados e innecesarios, así como a evitar la creación de más silos de datos. También resulta primordial para contar con una seguridad y una gobernanza robustas, ya que permite, por ejemplo, disponer de unos controles pormenorizados del acceso a los datos. Por último, un acceso ininterrumpido (gracias a una “clean room” virtual fiable) a conjuntos de datos valiosos controlados por terceros brinda oportunidades totalmente nuevas de generar valor.
Dar prioridad a la seguridad y gobernanza de los datos
¿Qué pueden hacer las empresas para avanzar de forma segura? Es indispensable contar con una base robusta para los datos que tenga la seguridad y la gobernanza integradas en su núcleo digital. Esta base debe permitir a todos los equipos confiar en los datos que utilizan, tanto si son propiedad de la empresa como si proceden de otras fuentes, lo que incluye a los partners de su ecosistema.
La base debe controlar el acceso a los datos con configuraciones más complejas que nunca. Uno de los muchos aspectos interesantes sobre la IA generativa es su capacidad para democratizar el acceso a información que antes solo estaba al alcance de científicos de datos y especialistas en IA. Pero al facilitar el acceso también aumentan los riesgos. La seguridad y la gobernanza pueden volverse todavía más importantes.
¿Cuál es el siguiente paso?
Muchas empresas, aunque desde luego no todas, han superado con éxito la primera fase del desafío que suponen los datos: conseguir que los datos estructurados se puedan compartir entre las diferentes líneas de negocio y con terceros. La segunda fase, que consiste en poder confiar en una explosión de información no estructurada que se transmite a gran velocidad, todavía es una tarea en curso para la mayoría. La tercera acaba de surgir y supone emplear large language models (LLM) y modelos de ML a medida a mayor escala ajustados o entrenados con estos datos.
Generar confianza en los datos es particularmente importante en la segunda fase. Para ello, se necesita una plataforma de datos que pueda llevar todas las herramientas de cómputo necesarias hasta los datos, de forma que se puedan utilizar dentro de los mismos límites de gobernanza. Gracias a los partners de Snowflake, podemos ayudar a los clientes a hacerlo realidad. Al proporcionar controles en la capa de los datos y entre distintas nubes, la plataforma de Snowflake permite que el procesamiento tenga lugar junto a los datos. De esta forma, todos los usuarios de la empresa sabrán que sus modelos de IA siempre utilizarán datos fiables. Sin esa certeza, existe un riesgo constante de que los modelos proporcionen información errónea.
En lo que respecta a la tercera fase, democratizar y desarrollar las ventajas de los modelos de IA y LLM líderes en el sector, se necesita ofrecer un método a todos los usuarios (no solo los especialistas en IA) para que puedan acceder a estas tecnologías vanguardistas y utilizarlas de una forma que les permita aplicar sus datos fiables para entrenar y dar instrucciones a LLM tanto personalizados como de código abierto.
Invertir en una plataforma de datos en la nube
Independientemente de la fase en la que se encuentre tu organización o a la que quiera llegar, invertir hoy mismo en una plataforma de datos moderna para tu núcleo digital es una acción de la que es imposible arrepentirse. Identifica las áreas de negocio con el mayor valor potencial e invierte en optimizar la forma de gestionar y proteger los flujos de datos de los que dependen.
Estamos viendo cómo cada vez son más los clientes que invierten en este ámbito como su máxima prioridad. Las capacidades de ML e IA generativa se están convirtiendo rápidamente en el factor diferenciador clave para las empresas de todos los sectores. En la coyuntura actual, todas las empresas deben democratizar el acceso a estas capacidades y asegurarse de que los datos que utilizan sean fiables.
Si son capaces de hacerlo, destacarán sobre la competencia de tres formas clave:
- Garantizando que sus equipos empresariales puedan utilizar la IA para realizar analíticas diarias en cuestión de segundos.
- Acelerando la innovación, ya que los usuarios técnicos podrán crear e implementar aplicaciones basadas en IA en pocos minutos.
- Asegurándose de que todos sus datos y modelos estén protegidos y gobernados.