Produit et technologie

Simplifiez vos opérations et exploitez vos données non structurées avec Document AI

Simplifiez vos opérations et exploitez vos données non structurées avec Document AI

On estime qu'entre 80 et 90 % des données mondiales sont non structurées1, les fichiers texte et les documents en constituant une part significative. Chaque jour, d’innombrables documents textuels, tels que des contrats et des demandes d’indemnisation, sont conservés. Bien qu’ils contiennent une mine d’informations, ces documents restent souvent inexploités, car le processus d’extraction des données pertinentes de ces documents est difficile, fastidieux et chronophage. En outre, la variabilité inhérente des formats, des sources et du contenu des documents ajoute de la complexité. 

Cette variabilité nécessite des approches d’extraction sur mesure pour chaque type de document, ce qui allonge considérablement les délais de traitement. Les systèmes hérités existants pour résoudre ce problème sont souvent inadéquats, ce qui nécessite un développement approfondi et une grande expertise en machine learning (ML). La rationalisation de ces processus grâce aux progrès de technologies telles que l’IA pourrait améliorer considérablement la façon dont les entreprises utilisent leurs données documentaires pour une meilleure prise de décision. Imaginez le potentiel transformateur d'un système capable d'extraire automatiquement et avec précision des informations essentielles de n'importe quel document avec une grande précision et très peu d'efforts de vos équipes commerciales.

Document AI : traitement intelligent des documents dans Snowflake

Pour aider les entreprises à relever ce défi du traitement des documents, Snowflake a créé Document AI, bientôt disponible pour tous nos clients sur AWS et Azure. Cette nouvelle fonctionnalité intéressante permet aux équipes de mettre en place des flux de travail Intelligent Document Processing (IDP) entièrement dans Snowflake. Grâce à Document AI, vous pouvez extraire des informations clés de vos documents, comme vos factures et vos contrats, et les appliquer directement aux flux de travail opérationnels sans vous soucier de l’échelle ou de la variabilité de vos documents. Document AI est alimenté par un grand modèle de langage (LLM) multimodal, intégré et propriétaire, Snowflake Arctic-TILT (Text Image Layout Transformer), qui offre des performances de pointe avec une utilisation des ressources exceptionnellement efficiente et rentable

Comment ça marche ?

Grâce à la puissance de Document AI, les équipes commerciales peuvent automatiser les processus, tirer des informations précieuses de leurs données et améliorer la prise de décision. L’expérience utilisateur de Document AI se divise en deux étapes principales : la préparation du modèle (à l’aide de quelques documents) et l’inférence (sur des milliers de documents). Aucune des deux étapes ne nécessite d’expérience en ML ou en développement d’applications.

Préparation du modèle : lors de cette étape, le propriétaire du document utilise l’interface utilisateur Document AI pour créer et gérer un modèle de « build ». Chaque build comprend les documents, les questions pour lesquelles vous souhaitez obtenir des réponses (les éventuels points de données extraits) et le modèle lui-même, le tout regroupé pour un type de document ou un cas d’usage spécifique. L’utilisateur pose des questions au modèle dans un langage naturel et les affine grâce à des corrections si nécessaire. Grâce à son interface de langage naturel intuitive et facile à utiliser, les utilisateurs métiers n’ont pas besoin de connaissances en ML ou en IA pour exploiter le modèle sous-jacent et extraire des informations à partir de documents. En un seul clic, les mêmes utilisateurs peuvent affiner le modèle en l’entraînant à leurs besoins spécifiques. Une fois que le modèle a été évalué avec succès par rapport à quelques documents, l’utilisateur le publie et transmet les étapes suivantes d’extraction d’informations à grande échelle (e.g., milliers de documents par jour) à un data engineer.

Étape d'inférence : une fois le modèle prêt pour la production, le data engineer met en place un pipeline automatisé IDP (Intelligent Document Processing). En commençant par l’approvisionnement et le chargement de documents, le data engineer a la possibilité de maintenir les fichiers sur les stagings externes ou de les intégrer directement dans les stagings internes de Snowflake. Ils pointent ensuite le modèle vers le staging des documents pour le cas d’usage donné. Le modèle est appelé à l’aide de la fonction PREDICT, et les résultats peuvent ensuite être traités et partagés avec le responsable des documents ou d’autres parties prenantes via des tableaux de bord, Streamlit ou d’autres applications. 

Document AI étant construit sur Snowflake Cortex AI, toutes les opérations s’exécutent sur des GPU gérés et le modèle est hébergé directement dans Snowflake. Évaluez simplement le modèle, ajustez-le si nécessaire, puis exécutez-le à grande échelle sans avoir à tester, sécuriser, déployer ou mettre à niveau les GPU. Snowflake gère toute l’infrastructure pour vous, avec la possibilité d’opérationnaliser en pipelines, exactement là où vos données se trouvent. 

Gros plan sur Snowflake Arctic-TILT

Arctic-TILT de Snowflake, le modèle qui alimente Document AI, est un LLM conçu par Snowflake qui tire parti d’une architecture transformeur propriétaire et unique, adaptée pour comprendre et extraire des données de documents. En combinant plusieurs modalités de données, Arctic-TILT offre une polyvalence et des performances inégalées dans les tâches de compréhension des documents. Le score de similarité ANLS (Average Normalized Levenshtein Similarity) est une mesure utilisée pour fournir une évaluation complète de la performance d’un modèle dans la gestion de diverses entrées textuelles. Snowflake Arctic-TILT traite des documents avec un score ANLS de 90,2 dans son dernier benchmark DocVQA, dépassant le score ANLS de 88,4 de GPT-4. Cela signifie qu’Arctic-TILT peut traiter divers documents avec précision, même s’il ne les a jamais consultés ni des documents similaires auparavant, sans annotation, modèles artisanaux ou règles requis. Le modèle peut encore être adapté à vos besoins spécifiques en annotant simplement un nombre limité de documents via l’interface utilisateur Document AI.

Fonctionnalités et capacités clés

  1. Compréhension multimodale : Arctic-TILT n’a pas besoin de règles ou de spécifications pour extraire des informations, ni d’organiser les documents avant de les traiter. Avec Document AI, vous pouvez intégrer vos différents documents et permettre au modèle de comprendre, d’analyser et d’extraire simultanément des informations à partir de textes, d’images et de mises en page spatiales. 
  2. Performances de pointe : sur des benchmarks tels que DocVQA, Arctic-TILT démontre des capacités de Visual Question Answering égales, voire supérieures, à celles de modèles comme GPT-4, qui ont bien plus de paramètres.
  3. Fenêtre contextuelle étendue : Arctic-TILT offre une fenêtre contextuelle exceptionnellement grande. Cette fonctionnalité est essentielle pour saisir tout le contexte du contenu multimodal et vous permet de charger des documents d’une longueur maximale de 125 pages.
  4. Inférence efficiente : Arctic-TILT est conçu pour gérer à la fois des volumes de documents à petite échelle et à l’échelle de l’entreprise, tout en maintenant les performances et, plus important encore, la précision, deux aspects essentiels en matière de traitement des documents professionnels. 
  5. Adaptabilité : conçu pour un large éventail d’applications et de secteurs, Arctic-TILT ne nécessite aucune connaissance préalable d’un document ou d’un format donné et s’ajuste facilement si nécessaire.

Transformez vos données non structurées en opportunités commerciales

Les applications potentielles de cette technologie sont considérables, des petites sociétés financières aux conglomérats du secteur de l’industrie, du rapprochement des factures à la découverte de preuves. 

Prenons l’exemple de Northern Trust, la société de services financiers vieille de 134 ans dont le siège social est situé à Chicago. Grâce à Document AI, l’entreprise s’attend à réduire considérablement les tâches liées à l’extraction d’informations à partir de documents financiers pour le rapprochement de contrats à terme. « Document AI a le potentiel de simplifier la façon dont nous extrayons les données des documents financiers, améliorant ainsi notre efficacité et notre précision », explique Robert Ismailov, SVP and Head of Information Delivery chez Northern Trust. « Cela permet à notre équipe de se concentrer davantage sur l’analyse des données et moins sur la saisie manuelle. »

Aujourd’hui, les clients Snowflake de tous les secteurs utilisent Document AI pour une grande variété de cas d’usage, notamment :

  • Observation des déclarations auprès de la SEC : extraction de données à partir de déclarations 10-K, 10-Q et 8-K pour garder une vision actualisée des sociétés cotées et de leurs changements
  • Rapprochement de factures : extraction de chiffres clés pour aider les directions financières à établir leurs comptes
  • Compréhension et organisation de contrats : extraction des conditions de contrats, facilitant la catégorisation et l’analyse
  • Numérisation de documents physiques, tels que des menus : analyse automatique des éléments de menu pour une expérience culinaire plus numérique

L’équipe financière de Snowflake elle-même exploite cette technologie pour rationaliser l’identification des clauses contractuelles non standard dans les formulaires de commande. « Document AI a le potentiel de nous faire gagner des centaines d’heures par mois, ce qui permet à notre équipe de passer d’un travail répétitif à un travail plus efficace », explique Anh Doan, Director of Revenue and Billing chez Snowflake. « Les possibilités de transformation sont immenses. »

Pour vous rendre compte par vous-même de la puissance de Snowflake Arctic-TILT et de la valeur que Document AI peut apporter à votre organisation, consultez ce guide quickstart

Document AI n’est qu’une des nombreuses façons dont Snowflake infuse la puissance de l’IA dans chaque aspect de votre entreprise. Nous accélérons la façon dont les entreprises peuvent exploiter l’IA pour offrir de meilleures expériences et améliorer l’efficacité avec une automatisation plus avancée, et ainsi obtenir une valeur tangible. En savoir plus ici sur Snowflake Cortex AI et Snowflake Copilot

1. Source : https://mitsloan.mit.edu/ideas-made-to-matter/tapping-power-unstructured-data 

Ebook

Le guide indispensable de l'IA générative

Partager cet article

Subscribe to our blog newsletter

Get the best, coolest and latest delivered to your inbox each week

Démarrez votre essai gratuitde 30 jours

Essayez Snowflake gratuitement pendant 30 jours et découvrez l’AI Data Cloud qui élimine la complexité, les coûts et les contraintes d’autres solutions.