Data for Breakfast à travers le monde

Propulsez votre impact via l'intelligence agentique et la donnée.

Qu’est-ce que l’AutoML ? Guide sur le machine learning automatisé

Découvrez ce qu’est l’AutoML, comment il fonctionne et pourquoi son rôle est important. Apprenez à identifier ses principaux composants et cas d’usage et découvrez comment une plateforme data peut améliorer les flux de travail du ML automatisé.

  • Présentation
  • Qu’est-ce que l’AutoML ?
  • Pourquoi l’AutoML change la donne
  • Les composants clés de l’AutoML
  • Six cas d’usage courants de l’AutoML
  • Les principales limites de l’AutoML
  • Conclusion
  • Questions-réponses sur l’AutoML
  • Clients utilisant le machine learning de Snowflake
  • Ressources sur le machine learning

Présentation

Sans exagérer, on peut dire que le machine learning a changé le monde. Apprendre aux machines à réfléchir en leur donnant des exemples d’informations que vous voulez qu’elles apprennent (données), au lieu de règles préprogrammées (code) a ouvert la voie à un large éventail d’applications pratiques. Des systèmes de diagnostic en radiologie aux filtres anti-spam pour les e-mails, sans oublier les véhicules semi-autonomes, toutes ces machines ont été entraînées grâce au machine learning (ML).

Le ML est également à l’origine des grands modèles de langage et des applications d’IA générative qui en sont issues. Cependant, créer et entraîner des modèles de ML demande beaucoup de temps et de ressources, ce qui nécessite des investissements importants dans l’infrastructure et une grande expertise en IA. C’est pourquoi une nouvelle catégorie d’outils qui automatisent une grande partie de ces processus a retenu l’attention des data scientists, des ingénieurs, des analystes et des utilisateurs métiers : le machine learning automatisé, ou AutoML. 

Dans ce guide, nous expliquerons ce qu’est l’AutoML et comment il permet de combler le fossé de connaissances entre les équipes de data science et les utilisateurs lambda, en rendant l’IA plus évolutive et accessible à tous au sein d’une entreprise.

Qu’est-ce que l’AutoML ?

L’AutoML utilise un logiciel pour gérer automatiquement les étapes clés de la création d’un modèle de machine learning, comme la sélection des algorithmes appropriés, le réglage des paramètres du modèle et la transformation des données brutes dans un format que le modèle comprendra, processus connu sous le nom de feature engineering. Cela peut réduire de plusieurs mois à quelques jours, voire quelques heures, le temps nécessaire aux ingénieurs pour créer un modèle simple. L’AutoML démocratise l’IA en permettant aux utilisateurs de secteurs comme la santé, les services financiers et le marketing de construire leurs propres modèles, sans nécessiter d’expertise technique approfondie.

Pourquoi l’AutoML change la donne

Voici cinq façons dont l’AutoML révolutionne les règles de construction de modèles :


  • Il démocratise le développement. L’AutoML élimine les obstacles techniques, de sorte que les experts issus d’un large éventail de secteurs peuvent créer des modèles sophistiqués sans expertise préalable en machine learning.
  • Il stimule la productivité. En automatisant des processus chronophages tels que le feature engineering, la sélection des algorithmes et le réglage des paramètres, l’AutoML réduit drastiquement le temps nécessaire à la création de modèles.
  • Il améliore la précision. Les plateformes d’AutoML testent systématiquement des centaines de combinaisons d’algorithmes et de paramètres et découvrent souvent des modèles plus performants que des humains pourraient manquer.
  • Il améliore la reproductibilité. Les plateformes d’AutoML documentent automatiquement toutes les décisions et tous les paramètres de modélisation. Elles créent ainsi une piste d’audit claire qui permet de reproduire facilement les résultats et de comprendre exactement comment les modèles ont été construits.
  • Il assure la constance. L’AutoML veille à ce que les méthodes de validation, de validation croisée et d’évaluation soient appliquées de manière constante, ce qui réduit les erreurs humaines qui peuvent conduire à des prédictions inexactes.

Les composants clés de l’AutoML

Voici les composants clés d’un pipeline d’AutoML :
 

Prétraitement des données

Lors de cette étape, la plateforme nettoie et prépare les données brutes. Elle gère les valeurs manquantes, supprime les valeurs anormales et convertit les types de données dans des formats adaptés aux algorithmes de machine learning, de façon à garantir la qualité et la concordance des données avant le début de l’entraînement des modèles.
 

Feature engineering

Ensuite, la plateforme transforme les données brutes : elle génère de nouvelles variables, code les données catégorielles, dimensionne les fonctionnalités numériques et sélectionne les features les plus pertinentes pour améliorer les prédictions des modèles.
 

Sélection de modèles

L’AutoML teste systématiquement plusieurs algorithmes de machine learning (arbres de décision, réseaux neuronaux ou méthodes d’ensemble, par exemple) pour identifier l’approche la plus adaptée à un jeu de données et à un problème spécifiques. 
 

Entraînement

L’étape la plus importante consiste à alimenter le modèle avec de grandes quantités de données d’exemple (comme des milliers d’e-mails étiquetés « spam » ou « pas spam ») afin qu’il puisse apprendre à reconnaître les schémas et les relations au sein de ces données. Le modèle peut ensuite utiliser ces schémas appris pour faire des prédictions ou prendre des décisions sur des données jusqu’alors inconnues.
 

Modélisation d’ensemble

Cette étape consiste à entraîner différents modèles de machine learning sur le même jeu de données, puis à combiner leurs prédictions pour prendre une décision finale. La modélisation d’ensemble produit généralement des résultats plus précis et plus fiables qu’un modèle individuel, car elle réduit l’impact des faiblesses et des biais d’un modèle particulier.
 

Réglage des hyperparamètres

En réglant automatiquement les paramètres qui contrôlent l’apprentissage de chaque algorithme, comme les taux d’apprentissage, la profondeur des arbres ou les paramètres de régularisation, l’AutoML permet aux utilisateurs d’identifier la meilleure combinaison de paramètres.
 

Évaluation et validation

Les entreprises ont besoin d’un modèle capable de fonctionner de façon efficace sur des données jusqu’alors inconnues. Les procédures de test, telles que la validation croisée, collectent des indicateurs (exactitude, précision, rappel, etc.) tout en vérifiant les risques de surapprentissage ou « overfitting » (lorsqu’un modèle obtient de mauvais résultats sur des données en dehors de son ensemble d’entraînement) ou de biais.
 

Déploiement et surveillance 

L’AutoML identifie automatiquement le modèle le plus performant à des fins de production et met en place des systèmes pour suivre ses performances au fil du temps. Cela permet de s’assurer que le modèle continue à fonctionner efficacement à mesure que les conditions réelles évoluent, afin d’éviter toute dérive du modèle et de déclencher un nouvel entraînement, si nécessaire.
 

Explicabilité technique

Dans la mesure du possible, les développeurs veulent pouvoir expliquer pourquoi un modèle a fait une prédiction particulière, afin d’éviter les modèles de type « boîte noire », où le processus de décision est totalement opaque. Les plateformes d’AutoML disposent souvent d’outils qui documentent l’ensemble du processus de modélisation, notamment la façon dont les données ont été prétraitées et la raison pour laquelle certains algorithmes ont été choisis.

Six cas d’usage courants de l’AutoML

Comme pratiquement tous les secteurs utilisent des modèles de machine learning, l’AutoML peut accélérer les initiatives de ML d’une entreprise dans de nombreux domaines. Voici six cas d’usage courants pour lesquels l’AutoML peut vous aider :
 

1. Prévision des ventes  

L’AutoML aide les entreprises à créer des modèles pour analyser l’historique des données de vente, les tendances saisonnières et les tendances du marché. Les entreprises peuvent rapidement ajuster leurs stocks, leurs effectifs et leurs budgets en fonction de ces prédictions automatisées, sans avoir à faire appel à des data scientists. 
 

2. Détection des fraudes 

Les banques et les organismes de traitement des paiements utilisent le ML pour repérer les potentielles transactions frauduleuses en temps réel. L’AutoML permet aux analystes et aux gestionnaires des risques de fraude de créer des modèles plus rapidement afin de suivre l’évolution des tactiques des fraudeurs. 
 

3. Prédiction de la perte de clients 

Les services par abonnement et les opérateurs de télécommunication utilisent le ML pour repérer les clients susceptibles d’annuler leur abonnement, afin de les contacter dans le cadre d’efforts proactifs pour les fidéliser. L’automatisation permet aux entreprises de tester et de déployer rapidement de nouveaux modèles de prédiction de la perte de clients à mesure que le comportement de ces derniers évolue.
 

4. Diagnostic des maladies

Le machine learning aide les professionnels de santé à analyser les images médicales, les résultats de laboratoires et les symptômes des patients pour faciliter les diagnostics et les traitements. À mesure que de nouvelles données sur la recherche médicale et les patients sont disponibles, l’AutoML peut continuellement mettre à jour les modèles existants pour s’assurer que les patients reçoivent les meilleurs soins possibles.
 

5. Optimisation des stocks

Les retailers utilisent des modèles pour prédire la demande de produits spécifiques sur différents sites, ce qui leur permet de stocker les bons articles au bon moment. L’AutoML peut aider les équipes des opérations de retail à créer des modèles pour différentes catégories de produits ou différents emplacements de magasins, mais aussi à réentraîner automatiquement les modèles à mesure que les conditions du marché évoluent.
 

6. Déploiement d’une tarification dynamique

L’AutoML permet aux plateformes de e-commerce et aux services de covoiturage de déployer des modèles de tarification dynamique grâce à l’intégration automatique des flux de données en temps réel, mais aussi d’expérimenter rapidement différentes stratégies de tarification sur divers marchés, produits ou services. Ainsi, les entreprises peuvent optimiser leurs revenus sans devoir ajuster manuellement leurs tarifs de manière régulière.

Les principales limites de l’AutoML

Les plateformes d’AutoML offrent des avantages dont peuvent profiter toutes les entreprises. Elles peuvent accélérer le développement de modèles, réduire les erreurs humaines, libérer les data scientists pour des tâches plus stratégiques et démocratiser l’accès à l’IA dans toute l’entreprise. Mais elles présentent également certaines limites inhérentes. En voici quelques exemples :
 

Elles proposent des solutions génériques

L’AutoML a tendance à appliquer des approches standard qui ne tiennent pas forcément compte des aspects particuliers de chaque problématique. Cette technologie risque donc de négliger des solutions sur mesure que des experts du domaine pourraient développer pour des secteurs ou des cas d’usage spécifiques.
 

Elles ont une compréhension limitée des domaines d’activité

Les systèmes d’AutoML manquent de contexte métier et d’expertise spécialisée pour des secteurs ou des domaines spécifiques. Ils peuvent donc passer à côté de nuances importantes qu’un expert humain pourrait percevoir, comme des tendances saisonnières ou des contraintes réglementaires.
 

Elles sont tributaires de la qualité des données d’entrée 

Les plateformes d’AutoML ne peuvent pas corriger les données de mauvaise qualité. Si les données d’entrée sont biaisées, incomplètes ou peu pertinentes, les systèmes automatisés généreront des résultats peu fiables.
 

Elles ne sont pas très flexibles 

Les utilisateurs avancés risquent de rencontrer des difficultés insurmontables s’ils essaient de mettre en œuvre des techniques spécialisées, des algorithmes personnalisés ou des étapes de prétraitement complexes qui ne relèvent pas des capacités automatisées de la plateforme.
 

Les outils de feature engineering peuvent être limités 

Bien que les plateformes d’AutoML gèrent le feature engineering de base, elles ne sont pas forcément capables de créer des features sophistiquées et spécifiques à un domaine, susceptibles d’améliorer considérablement les performances d’un modèle.
 

Elles peuvent fonctionner comme des « boîtes noires »

Même si une plateforme d’AutoML peut être capable d’expliquer comment un modèle de ML fait des prédictions, les modèles d’ensemble complexes sont parfois beaucoup plus difficiles à interpréter ou à expliquer. L’AutoML n’est donc pas adapté aux applications exigeant un haut niveau de transparence, comme les diagnostics médicaux ou les approbations de prêts.
 

Elles peuvent être coûteuses et compliquer la migration 

De nombreuses plateformes d’AutoML sont coûteuses et tributaires de systèmes propriétaires, ce qui rend difficile leur gestion autonome et complique le transfert de modèles vers d’autres environnements.

Toutes ces limites expliquent pourquoi l’AutoML fonctionne mieux comme un outil pour compléter l’expertise humaine, plutôt que pour la remplacer complètement.

Conclusion

L’AutoML démocratise le machine learning et aide des experts issus de nombreux secteurs à créer des modèles prédictifs sophistiqués, sans expertise technique. La durée de développement passe de plusieurs mois à quelques jours et les entreprises peuvent adopter l’IA beaucoup plus rapidement.

Les plateformes d’AutoML sont capables de tester systématiquement des centaines de combinaisons d’algorithmes pour identifier ceux qui génèrent les résultats les plus fiables. Par ailleurs, elles appliquent des meilleures pratiques homogènes pour évaluer et valider les données, ce qui réduit les erreurs humaines susceptibles de compromettre les performances des modèles.

Toutefois, les équipes doivent également tenir compte des limites de l’AutoML, notamment le manque de contexte par rapport à un domaine précis, les problèmes potentiels d’interprétabilité et une forte dépendance à l’égard de la qualité des données. 

Lorsque sa mise en œuvre tient compte de la gouvernance des données, de la qualité des infrastructures et de la supervision humaine, l’AutoML devient un outil puissant qui complète l’expertise humaine et permet de développer des initiatives d’IA dans l’ensemble de l’entreprise.

Questions-réponses sur l’AutoML

Le ML, ou machine learning, désigne un domaine général qui vise à apprendre des tendances à des ordinateurs à partir de données et à faire des prédictions. L’AutoML, quant à lui, automatise les tâches complexes et chronophages du machine learning, telles que la sélection des algorithmes et le réglage des paramètres. Pour faire simple, le machine learning est la science et l’AutoML est un ensemble d’outils automatisés qui rend ces modèles accessibles aux non-scientifiques.

Les MLOps se concentrent sur les aspects opérationnels du déploiement, de la surveillance et de la maintenance des modèles de machine learning dans des environnements de production. L’AutoML automatise le développement initial et l’entraînement de ces modèles. Alors que l’AutoML vous aide à créer rapidement des modèles, les MLOps vérifient leur fiabilité dans des applications réelles et leur bon fonctionnement continu, même lorsque les conditions évoluent.

Les principaux fournisseurs de technologies, tels qu’Amazon, Google et Microsoft, proposent des plateformes d’AutoML dans le cadre de leurs offres de services cloud. D’autres entreprises, telles que DataRobot, H20.ai et IBM Watson, fournissent des outils similaires. Par ailleurs, les entreprises peuvent tirer parti de bibliothèques Python open source gratuites, comme Auto-sklearn et TPOT, qui automatisent les flux de travail scikit-learn et permettent de contrôler entièrement la personnalisation.

L’AutoML évolue pour s’intégrer aux modèles de fondation et aux grands modèles de langage, ce qui permet aux utilisateurs d’ajuster des modèles pré-entraînés plutôt que de les construire ex nihilo. Des outils d’AutoML propres à un domaine voient le jour pour des spécialités telles que la vision par ordinateur, le traitement du langage naturel et la prévision de séries temporelles. En outre, les plateformes d’AutoML modernes se concentrent davantage sur l’explicabilité, les considérations liées à l’IA éthique et les approches hybrides qui combinent des processus automatisés avec une expertise et une supervision humaines.