Fermer
4- early-planning-actions-to-simplify-large-scale-ai-ml-projects_1200x628

Le défi

Les projets d’IA/ML à grande échelle sont notoirement complexes et sujets à l’échec, des études montrant que plus de 85 % des initiatives d’IA d’entreprise n’atteignent jamais le stade de la production. Le client, une entreprise technologique du Fortune 500, a été confronté à ce défi précis lorsqu’il s’est lancé dans une refonte complète de l’infrastructure d’apprentissage automatique qui aurait un impact sur plusieurs unités commerciales et des millions de clients.

Le projet comprenait la mise en œuvre de systèmes de formation distribués, le déploiement de pipelines d’inférence en temps réel et l’établissement de flux de travail MLOps dans des environnements en nuage et sur site. Les estimations initiales prévoyaient un délai de 18 mois et un budget de 12 millions de dollars. Cependant, à l’instar du projet Dreamliner de Boeing, la planification initiale a révélé un potentiel de dépassements et de retards importants en raison d’une complexité sous-estimée.

Les principaux facteurs de complexité comprenaient la coordination entre plus de 15 équipes d’ingénieurs, la gestion de la conformité en matière de confidentialité des données dans plusieurs juridictions, l’intégration avec les systèmes existants et la garantie de transitions sans temps d’arrêt pour les services en contact avec les clients. Le client avait déjà connu l’échec d’une initiative d’IA qui avait dépassé le budget de 200 % et avait finalement été annulée au bout de deux ans, ce qui avait fragilisé la confiance des parties prenantes.

En l’absence de mesures de planification précoce appropriées, ce projet risquait de devenir un nouvel échec coûteux, susceptible de nuire à la position concurrentielle de l’entreprise dans le domaine de l’IA/ML et d’éroder la confiance dans les futures initiatives d’innovation.

La solution

S’inspirant des enseignements tirés de la gestion de projets complexes, notamment de l’expérience du Dreamliner de Boeing, une approche globale a été élaborée, à savoir un cadre de planification précoce spécifiquement adapté aux initiatives de grande envergure en matière d’IA/ML. Ce cadre met l’accent sur la mise en place de sécurités, de sauvegardes et de tampons avant le lancement du projet afin de tenir compte de la complexité inhérente.

  • Cartographie de la complexité et évaluation des risques : Identification systématique de toutes les dépendances du projet, des points d’échec potentiels et des multiplicateurs de complexité spécifiques aux charges de travail AI/ML.
  • Planification adaptative des ressources : Stratégies d’allocation dynamique qui tiennent compte de la nature itérative du développement de l’apprentissage automatique et de la nécessité de disposer de talents spécialisés.
  • Préparation de l’infrastructure technique : Mise en place rapide de pipelines MLOps robustes, de systèmes de surveillance et de ressources informatiques évolutives.
  • Cadre d’alignement des parties prenantes : Protocoles de communication clairs et mesures de réussite qui tiennent compte de la nature expérimentale du développement de l’IA/ML.

L’approche a reconnu que les projets d’IA/ML diffèrent considérablement du développement de logiciels traditionnels en raison de leur nature expérimentale, des dépendances des données et de la nécessité d’une itération continue du modèle. Contrairement aux projets conventionnels où les exigences sont relativement fixes, les initiatives en matière d’IA/ML nécessitent une certaine souplesse pour pivoter en fonction des données et des performances du modèle.

La mise en œuvre comprenait un processus de planification précoce en quatre phases qui répondait aux défis uniques des projets d’IA/ML : évaluation de la qualité des données, planification de l’évolutivité de l’infrastructure, cartographie des compétences des talents et préparation à la conformité réglementaire. Cette approche globale a permis d’identifier et d’atténuer les obstacles potentiels avant qu’ils ne fassent dérailler le calendrier ou le budget du projet.

Mise en œuvre

Phase 1 : Découverte et évaluation de la complexité

Nous avons commencé par une phase de découverte complète de 6 semaines qui a permis de cartographier toutes les dépendances du projet, les exigences des parties prenantes et les contraintes techniques. Nous avons notamment mené des entretiens détaillés avec plus de 45 membres de l’équipe dans les domaines de l’ingénierie, de la science des données, de la conformité et des unités commerciales. Nous avons identifié 23 dépendances critiques et 15 facteurs de complexité à haut risque, notamment des goulots d’étranglement dans le pipeline de données, des exigences d’interprétabilité des modèles et des défis de conformité interrégionale. Un registre détaillé des risques a été créé avec des stratégies d’atténuation pour chaque menace identifiée.

Phase 2 : Planification de l’infrastructure et des ressources

Sur la base des résultats de la découverte, un cadre a été mis en place que l’infrastructure MLOps robuste, y compris les pipelines de formation de modèle automatisé, les cadres de test A/B, et les systèmes de surveillance. La mise en œuvre comprenait l’orchestration de conteneurs à l’aide de Kubernetes pour le déploiement de modèles évolutifs et des protocoles de gouvernance des données établis. La planification des ressources comprenait l’identification des lacunes en matière de compétences et la création de programmes de formation pour les membres de l’équipe en place. Nous avons également établi des partenariats avec des agences de talents spécialisées en IA/ML pour assurer une mise à l’échelle rapide en cas de besoin.

Phase 3 : Mise en œuvre et validation du projet pilote

Plutôt que de lancer immédiatement le projet à grande échelle, nous avons exécuté trois programmes pilotes ciblés pour valider les hypothèses de planification. Ces programmes pilotes ont permis de tester les intégrations de systèmes critiques, les performances du pipeline de données et les processus de déploiement des modèles. Chaque programme pilote a duré de 8 à 10 semaines et a fourni des informations précieuses qui ont permis de définir l’approche principale du projet. Nous avons documenté les leçons apprises et affiné les processus sur la base de données de performance réelles.

Phase 4 : Préparation du lancement à grande échelle

Une fois les processus et l’infrastructure validés, nous nous sommes préparés à une mise en œuvre à grande échelle. Cela comprenait des sessions finales d’alignement des parties prenantes, la réalisation de toutes les approbations réglementaires et la mise en place de systèmes de surveillance et d’assistance 24 heures sur 24 et 7 jours sur 7. Une solution a été créée, qui détaille les manuels d’exécution pour les scénarios les plus courants et établit des procédures d’escalade pour les problèmes critiques. Tous les membres de l’équipe ont suivi une formation spécialisée sur les nouveaux systèmes et processus.

« Le cadre de planification précoce a transformé la façon dont nous abordons les projets d’IA à grande échelle. En investissant du temps dès le départ pour comprendre la complexité et mettre en place des mesures de protection adéquates, nous avons évité les erreurs coûteuses qui ont entaché les initiatives précédentes en matière d’IA. Le projet a été livré dans les délais et avec un budget inférieur de 15 %, ce qui semblait impossible compte tenu de nos antécédents. »

– Sarah Chen, vice-présidente de l’ingénierie de l’IA

Principaux résultats

98%Livraison dans les délais
15%Sous le budget
40%Déploiement plus rapide des modèles
99.9%Disponibilité du système

La mise en œuvre du cadre de planification précoce a donné des résultats exceptionnels qui ont dépassé toutes les attentes des parties prenantes. Le projet a été achevé dans les délais prévus, malgré sa complexité, et c’est la première fois que le client réussit à mener à bien une initiative d’IA à grande échelle dans les délais prévus. Plus important encore, les 15 % d’économies budgétaires réalisées ont permis de dégager des ressources supplémentaires pour les futurs investissements en matière d’IA.

Les performances techniques ont été tout aussi impressionnantes. La nouvelle infrastructure de ML a atteint un temps de disponibilité de 99,9 % au cours des six premiers mois suivant le lancement, avec des temps de déploiement des modèles réduits de 40 % par rapport aux systèmes précédents. Les systèmes de surveillance et d’alerte robustes que la mise en œuvre a inclus dès le début de la planification ont permis d’éviter 12 pannes potentielles grâce à une détection et une résolution proactives des problèmes.

Plus important encore, le projet a permis d’établir un cadre reproductible pour les initiatives futures en matière d’IA/ML. Depuis, le client a appliqué la méthodologie de planification précoce à trois autres projets, qui ont tous obtenu des taux de réussite similaires. Cela démontre l’évolutivité et la transférabilité d’une bonne planification de la complexité dans le domaine de l’IA/ML.

Questions fréquemment posées

Qu’est-ce que l’AIML ?

L’IA/ML fait référence à l’intelligence artificielle et à l’apprentissage automatique – deux domaines étroitement liés où l’IA est le concept plus large de création de systèmes intelligents, tandis que l’apprentissage automatique est un sous-ensemble axé sur les systèmes qui apprennent et s’améliorent à partir de données sans programmation explicite. Dans les entreprises, l’IA/ML implique généralement le déploiement d’algorithmes capables de faire des prédictions, de classer des données ou d’automatiser des processus de prise de décision.

ChatGPT est-il AI ou ML ?

ChatGPT est à la fois un système d’IA et de ML. Il s’agit d’un système d’IA car il fait preuve d’un comportement intelligent, notamment en comprenant et en générant des textes semblables à ceux d’un humain. Il s’agit également d’un système de ML car il a été formé sur de grandes quantités de données textuelles à l’aide de techniques d’apprentissage automatique, en particulier l’apprentissage profond avec des réseaux neuronaux transformateurs. Le modèle apprend des modèles à partir des données d’entraînement pour générer des réponses.

Pourquoi parle-t-on d’IA/ML ?

Les termes « IA/ML » sont utilisés ensemble car ces technologies sont souvent interconnectées dans les applications pratiques. Alors que l’IA est l’objectif plus large de la création de systèmes intelligents, l’apprentissage automatique est la principale méthode actuellement utilisée pour atteindre les capacités de l’IA. La plupart des systèmes d’IA modernes s’appuient fortement sur des techniques d’apprentissage automatique, ce qui rend le terme combiné plus précis pour décrire les systèmes intelligents contemporains.

En quoi le ML diffère-t-il de l’IA ?

L’IA est le domaine général axé sur la création de systèmes capables d’effectuer des tâches nécessitant l’intelligence humaine, tandis que la ML est une approche spécifique visant à atteindre l’IA grâce à l’apprentissage basé sur les données. L’IA peut inclure des systèmes basés sur des règles, des systèmes experts et d’autres approches, tandis que la ML utilise spécifiquement des algorithmes qui améliorent les performances grâce à l’expérience acquise avec les données. L’apprentissage automatique est un sous-ensemble de l’IA, mais tous les systèmes d’IA n’utilisent pas l’apprentissage automatique.

Conclusion

Les projets d’IA/ML à grande échelle n’ont pas à suivre le schéma des dépassements de coûts et des retards qui affligent l’industrie. En mettant en œuvre des mesures globales de planification précoce qui tiennent compte de la complexité, les organisations peuvent améliorer considérablement leur taux de réussite tout en réduisant les risques et les coûts.

Le cadre en quatre phases Une approche globale a été développée qui – évaluation de la complexité, préparation de l’infrastructure, validation du pilote et préparation du lancement – fournit une méthodologie reproductible pour s’attaquer à des initiatives ambitieuses en matière d’IA/ML. Le principal enseignement tiré de projets tels que le Dreamliner de Boeing est que la sous-estimation de la complexité est souvent plus coûteuse que la sur-préparation.

Alors que l’IA/ML continue de transformer les industries, les organisations qui réussiront seront celles qui investiront dans une planification adéquate et dans l’atténuation des risques dès le départ. Les mesures de planification précoce décrites dans cette étude de cas constituent une voie éprouvée pour transformer des visions complexes de l’IA/ML en réalités réussies et mises en œuvre.