Por que uma base de dados sólida é a chave para o sucesso da IA generativa
Pense em alguns anos atrás, quando a maioria das empresas estava planejando ou apenas começando suas jornadas na nuvem. A pandemia chegou e, praticamente da noite para o dia, a necessidade de mudar radicalmente as formas de trabalho acelerou a transição, em alta velocidade, para a nuvem. Foi essencial ter uma capacidade de adaptação econômica e as empresas que conseguiram ampliar ou reduzir rapidamente seus recursos foram as que enfrentaram a pandemia com maior sucesso. A migração para a nuvem tornou isso possível.
Atualmente, os benefícios revolucionários da IA generativa estão sendo um novo incentivo para agir com a mesma rapidez e determinação. Desta vez, o objetivo é garantir que os dados e a plataforma onde eles são processados estejam prontos para os novos modelos de inteligência artificial (IA).
Porém, ainda há um longo caminho a percorrer em um ambiente onde o volume, a velocidade e a complexidade dos dados e de seus tipos estão aumentando constantemente. Até 2025, estima-se que haverá 7 petabytes de dados gerados todos os dias, em comparação com "apenas" 2,3 petabytes diários existentes em 2021. E não se trata de qualquer tipo de dados. Atualmente, estima-se que a maior parte desses dados (80%) seja de dados não estruturados, tais como imagens, vídeos e documentos, ou seja, recursos dos quais as empresas ainda não estão obtendo muito valor.
Uma grande diferença entre ambição e realidade
No mundo atual repleto de dados, as organizações entendem que sua capacidade de competir a partir de agora vai depender da disponibilidade, da veracidade e da acessibilidade dos dados de que precisam. Atualmente, no entanto, enquanto 83% dos clientes da Accenture afirmam que os dados em tempo real serão cruciais para a vantagem competitiva nos próximos dois anos, apenas 31% dizem que estão gerenciando esses dados de forma eficaz.
Em outras palavras, há uma grande diferença entre a ambição e a realidade. Além disso, à medida que a necessidade de compartilhar dados com segurança, dentro e fora da empresa, se torna essencial, a capacidade de gerenciar e criar pipelines de dados sólidos e confiáveis é fundamental. Ainda assim, atualmente, 55% das empresas dizem que não conseguem rastrear a linhagem de seus dados da origem até o final. Como os dados estruturados e não estruturados são mantidos em vários silos e em muitos locais diferentes baseados na nuvem e no local, esse é um grande desafio. No entanto, este é um problema que as empresas precisam resolver para permanecerem competitivas.
Nossas pesquisas confirmam este fato. Descobrimos que as empresas com melhor desempenho têm 2,4 vezes mais probabilidade de armazenar seus dados em uma plataforma de dados moderna e especializada na nuvem. Quais são as principais ações que as diferenciam? Eliminação de silos de dados, remoção da duplicação, criação de produtos de dados confiáveis, redução do custo do retrabalho de dados, geração de insights mais oportunos e aplicação de casos de uso multifuncionais e aumento da adoção pelo usuário.
Percepção do valor dos dados proprietários
A maior obtenção de valor do aprendizado de máquina (machine learning, ML) em larga escala e da IA generativa vai ocorrer quando as empresas puderem confiar em seus próprios dados para fornecer insights e recomendações exclusivas capazes de mudar fundamentalmente o desempenho. Desse modo, elas poderão deixar de interagir com um chatbot genérico treinado pela Internet e passar a gerar conteúdo altamente relevante que aproveita informações atualizadas e potencialmente confidenciais da empresa.
As empresas que têm controle real sobre seus dados podem usar a tecnologia de forma muito mais direcionada e valiosa. Pense, por exemplo, em uma empresa do setor de ciências biomédicas que usa um modelo estritamente treinado com seus dados proprietários de testes e produtos para prever a probabilidade de sucesso de um medicamento com muito mais precisão, eficiência e rapidez do que suas concorrentes.
Muitas empresas modernas têm operações, produtos e cadeias de valor muito distantes que geram dados globalmente e de forma conjunta. Para criar modelos mais direcionados e discretos, como o do exemplo acima, essas empresas precisam encontrar uma maneira das equipes compartilharem e acessarem dados armazenados em várias nuvens em ambientes seguros e controlados.
A solução ideal é permitir o uso dos dados primários mais atualizados, sem a necessidade de copiá-los de um lugar para outro, ao mesmo tempo em que atende aos requisitos regulatórios vigentes, que continuarão a evoluir com a IA.
É claro, essa abordagem pode evitar custos significativos e desnecessários de armazenamento de dados, além de impedir a criação de mais silos de dados. Mas ela também é o meio vital para permitir governança e segurança sólidas, preservando, por exemplo, controles de acesso a dados refinados. Por fim, o acesso contínuo (por meio de um "clean room" virtual confiável) a conjuntos de dados valiosos controlados por terceiros abre oportunidades totalmente novas para a geração de valor.
Priorização da segurança e da governança dos dados
Como as empresas podem fazer tudo isso, agir rapidamente e permanecer seguras ao mesmo tempo? Não se pode abrir mão de uma base de dados abrangente, com segurança e governança incorporadas ao núcleo digital. Essa base deve permitir que todas as equipes confiem em todos os dados que usam, sejam eles de propriedade da empresa ou de outras fontes, incluindo parceiros do ecossistema.
E essa base precisa controlar o acesso aos dados em configurações mais complexas do que nunca. Um dos muitos aspectos interessantes da IA generativa é seu poder de democratizar o acesso a insights que antes só estavam disponíveis para especialistas em IA e cientistas de dados. No entanto, a redução das barreiras também aumenta os riscos, fazendo com que a segurança e a governança ganhem ainda mais destaque.
Então, o que vem a seguir?
Muitas organizações, mas não todas, conseguiram enfrentar com sucesso a primeira fase do desafio dos dados: tornar os dados estruturados compartilháveis entre as linhas corporativas e com terceiros. A segunda fase, ser capaz de confiar na profusão de informações não estruturadas e de alta velocidade, ainda é um trabalho que está em andamento para a maioria. A terceira fase, que aproveita os grandes modelos de linguagem (large language models, LLMs) personalizados e modelos de ML de grande escala ajustados ou treinados com esses dados, está surgindo agora.
Na segunda fase, o aumento da confiabilidade dos dados é particularmente importante. Isso requer uma plataforma de dados que possa trazer todas as partes necessárias de capacidade de processamento para os dados e disponibilizá-las dentro do mesmo limite de governança. Com nossos parceiros da Snowflake, ajudamos os clientes a alcançar esse objetivo. Ao fornecer controles na camada de dados e entre nuvens, a plataforma Snowflake permite que o processamento ocorra próximo aos dados. Isso significa que os usuários em toda a empresa sabem que seus modelos de IA estão sempre usando dados confiáveis. Sem essa garantia, há sempre o risco de que os modelos forneçam insights incorretos.
E, para a fase três, democratizar e ampliar os benefícios da IA e dos LLMs líderes do setor, é necessária uma maneira para que todos (e não apenas os especialistas em IA) possam acessar e usar essas tecnologias de ponta e empregar todos os seus dados confiáveis para treinar e estimular LLMs personalizados e de código aberto.
Investimento em uma plataforma de dados na nuvem
Seja qual for o estágio que sua organização tenha alcançado ou esteja almejando, investir hoje em uma plataforma de dados moderna para seu núcleo digital é um investimento que deve ser feito. Identifique as áreas da empresa com o maior potencial de valor e invista em otimizar a forma como você gerencia e protege os pipelines de dados que as alimentam.
Nossos clientes investem cada vez mais nisso como uma prioridade máxima. A IA generativa e os recursos de ML estão se tornando rapidamente o diferencial fundamental para empresas de todos os setores. Atualmente, todas as empresas precisam democratizar o acesso a esses recursos e garantir que os dados que usam sejam confiáveis.
Aquelas que conseguirem fazer isso, poderão garantir a vantagem competitiva ao se destacarem de três maneiras principais:
- Garantia de que todas as suas equipes de negócios possam usar a IA na análise de dados diária em segundos.
- Aceleração do fornecimento de inovação, com usuários técnicos capazes de criar e implementar aplicativos de IA em apenas alguns minutos.
- Manutenção de todos os seus dados e modelos seguros e controlados.