A l’issue de la seconde édition du salon AI Paris 2019 dédié à l’Intelligence Artificielle, LeMagIT titrait : «L’âge des PoCs touche à sa fin ». Finis les MVP développés en sandbox sur un notebook ! La complexité se situe désormais sur la mise en production de ces nouveaux outils statistiques. A l’heure où de nombreuses entreprises tentent de relever ce challenge, voici 4 bonnes pratiques pour réussir cette transition :

1. Adapter les dimensions du projet d’IA à la stratégie d’innovation et de maturité de l’entreprise
2. Mettre en place une organisation DataOps pour gagner en agilité et en efficacité
3. Automatiser une partie de la chaine de traitement des données pour repositionner le Data Scientist sur son métier premier
4. Maitriser l’ensemble de la chaine de traitement des données grâce à une documentation des données de l’entreprise en amont et une validation des modèles en aval par la méthode de test A/B

Bonne pratique #1 : Adapter les dimensions du projet d’IA à la stratégie d’innovation et de maturité de l’entreprise

Définir l’ambition d’innovation de l’entreprise évite de s’éparpiller sur des projets inutiles qui ne parviendront pas à sortir des DataLabs.
On distingue 5 stratégies d’innovation différentes :

  • Game-changer : Innover pour proposer une offre produit radicalement nouvelle et disruptive. Par exemple, proposer une offre d’assurance automobile « télématics ».
  • Différenciateur : Innover pour se différencier et se démarquer. Par exemple, proposer une nouvelle offre d’assurance automobile pour les jeunes, qui s’appuie sur des technologies data sciences pour réduire le risque d’accident très élevé dans cette tranche d’âge.
  • Performeur : Innover pour être le meilleur sur une activité donnée. Par exemple, disposer du meilleur algorithme de détection de fraudes.
  • Dérisqueur : Innover pour se tenir au courant des avancées technologiques et réagir rapidement si l’écosystème vient à changer. Par exemple, Total qui investit dans les énergies renouvelables sans pour autant abandonner les énergies fossiles.
  • Attentiste : ne pas innover et se concentrer sur son patrimoine et son savoir-faire.

Pour les banques et assurances traditionnelles, une stratégie trop « attentiste » semble risquée sur un marché de plus en plus challengé par des nouveaux acteurs (Géants de l’économie numérique, FinTechs, InsurTechs, …) ; par exemple dans le secteur bancaire, Facebook, qui détient déjà Paypal, souhaite lancer une nouvelle monnaie.

A contrario, une trop grande ambition pour les entreprises historiques du secteur semble aujourd’hui peu raisonnable car celles-ci doivent avant tout surmonter un défi technique que n’ont pas leurs nouveaux compétiteurs ; à savoir intégrer efficacement les outils d’IA dans des systèmes d’information anciens et hétérogènes non prévus à cet effet initialement tout en assurant une continuité de service. Adopter au minimum une stratégie de « Dérisqueur » pour moderniser les SI semblent donc une nécessité.

Afin de tirer rapidement des bénéfices de l’IA, l’enjeu néanmoins est d’évoluer rapidement vers une stratégie de « Performeur » sur des activités existantes en s’appuyant sur la quantité de données à disposition et que les nouveaux acteurs peinent à avoir.

En conclusion, il est important de rappeler que le système banque-assurance traditionnel repose aujourd’hui sur un business résilient (« too big to fail ») qui permet à ses acteurs historiques d’engager progressivement des travaux de modernisation afin d’en limiter les coûts et de garantir des ROI acceptables. Attention néanmoins à ne pas trop tarder et à toujours disposer d’une offre en adéquation avec un marché dans lequel les besoins des clients évoluent très rapidement.

Bonne pratique #2 : Mettre en place une organisation DataOps pour gagner en agilité et en efficacité

La complémentarité et la coordination des différentes équipes intervenant sur un projet IA est incontestablement l’un des facteurs clés de succès. Les fonctions DataScience et Exploitation sont deux muscles antagonistes au sein de l’entreprise :

  • Le but de l’équipe opérationnelle est de fournir un outil imperméable aux variations de l’environnement, et surtout à l’erreur humaine. C’est pour cette raison qu’un programme utilisé en environnement de production ne peut traditionnellement plus être modifié directement dans cet environnement.
  • Au contraire, le Data Scientist propose un outil statistique qui s’adapte à son environnement, pour prédire de nouveaux comportements, quitte à rajouter des variables explicatives supplémentaires et entrainer un nouveau modèle.

Comment concilier ces deux forces ? Le DataOps est une des pistes de réponse.

  • La Data Gouvernance qui définit les règles d’accès aux données ; la notion de Production, environnement sur lequel normalement les usages de données sont extrêmement contrôlés, est aujourd’hui trop restrictive pour les projets IA. En effet, les phases de conception, d’expérimentation et d’entrainement de modèles doivent s’appuyer sur des volumes de données souvent complets et identiques à la production alors qu’il ne s’agit que d’activités de développement. Des nouvelles règles du jeu garantissant conformité, sécurité et efficacité doivent être mises en place.
  • Les Data Engineers qui acheminent, nettoient et préparent les données pour les data scientists.
  • Les Data Scientists qui conçoivent les modèles de machine learning (en Python, TensorFlow, Keras, …) ayant vocation à être intégrés dans des applications de plus grande ampleur.
  • Les Dev qui créent la logique et l’architecture applicative en exploitant les modèles via des API par exemple.
  • Les Ops qui déploient et supervisent les applications.

Le DataOps reprend également les bonnes pratiques du DevOps, à savoir :

  • Intégrer des Ops dans l’équipe Dev ou des Data Engineers dans l’équipe Data Scientists pour raccourcir les boucles de rétroaction. Multiplier et automatiser les phases de test en développant par batchs fonctionnels.
  • Encourager l’expérimentation et l’apprentissage en prenant des risques, en améliorant la résilience du système de production et en intégrant les travaux imprévus dans la gestion du temps du travail.
  • Promouvoir une culture centrée sur l’humain, apporter de la valeur au client en répondant à ses attentes en temps réel, et augmenter les bénéfices de l’entreprise.

Toutefois, la multiplication des équipes techniques multiplie les outils et donc les mises à jour, les risques d’incidents, les opérations de maintenance, …. Si les organisations DevOps et DataOps ont prouvé leur efficacité en start-up, le passage à l’échelle dans les grands groupes comme les banques et assurances reste une prouesse que peu d’entreprises ont complètement réussie (par exemple, seules 11% des entreprises américaines ont les capacités de modifier des modèles actuellement en production pour augmenter leur performance).

Bonne pratique #3 : Automatiser une partie de la chaine de traitement des données pour repositionner le Data Scientist sur son métier premier

En parallèle de la culture DataOps, les outils de DataScience deviennent de plus en plus perfectionnés, au point de pouvoir automatiser certains pans de la chaine de traitement de donnée, depuis l’étape de data encoding jusqu’à la prédiction.

Par exemple, des librairies open sources (FeatureTools, Auto-sklearn, …) et des solutions propriétaires ou packagées (DataIKU, Watson, H2O.ai, DataRobot, …) permettent de sélectionner automatiquement les meilleures variables, ainsi que le meilleur modèle et hyperparamètres pour un problème donné.

Si les résultats d’une solution AutoML ne dépassent pas ceux que pourrait fournir un Data Scientist ayant une expérience des données métiers, ils s’en rapprochent très souvent. De manière générale, l’AutoML demeure une bonne solution pour trois raisons. Tout d’abord, il permet de gagner énormément de temps, ce qui est primordial dans un environnement en constante mutation où la réactivité impacte directement le ROI. Ensuite, il réduit le nombre d’acteurs DataOps et donc la complexité du projet. Enfin, il recentre le Data Scientist sur des tâches à plus forte valeur ajoutée comme par exemple :

  • Identifier les problèmes qui peuvent être analysés au travers du prisme de la datascience, et les traduire en tâches exécutables par la machine (apprentissage supervisé, non supervisé, renforcé, ou statistiques traditionnels).
  • Avoir un « sens de la donnée », sélectionner les données pertinentes et les labelliser.
  • Porter un regard critique sur les prédictions d’un modèle, évaluer ses performances, savoir quand le ré-entrainer et avec quelles données, analyser l’impact social et éthique sur la société, notamment si les décisions sont biaisées, ou discriminantes.
  • Expliquer les décisions du modèle : des compétences qui historiquement appartiennent au champ d’action de la BI. ActiveViam propose par exemple des outils de BI pour intégrer les résultats des Data Scientists dans des tableaux de reporting, plus familiers pour les équipes métier.

Bonne pratique #4 : Maitriser l’ensemble de la chaine de traitement des données grâce à une documentation des données en amont et une validation des modèles en aval par la méthode de test A/B

La réussite d’un projet IA dépend essentiellement de la qualité des données injectées dans le modèle, ce qui pose problème dans un environnement Big Data où les données sont souvent de types différents, non labellisées et de qualité incertaine. Actuellement, les outils de Data Sciences utilisés en production par les entreprises sont spécifiques à une tâche et un flux de donné précis.

Une bonne pratique consiste donc à recenser l’ensemble des données disponibles dans l’entreprise et tenir à jour une documentation détaillée sur celles-ci. Ce recensement permettra de rendre plus efficientes les étapes de labellisation et de normalisation d’un jeu de donnée pour un algorithme prédictif. En effet, la préparation des données prend un temps considérable, et ne peut se faire qu’à la main. Par exemple Amazon paie des gens pour segmenter à la main des milliers d’images. Il est donc important d’identifier dès le départ les données qui portent du sens.

Cette bonne pratique de documentation permet également aux équipes DataOps d’adapter plus rapidement les algorithmes IA si les données d’entrainement viennent à changer de forme ou de qualité, de manière à alimenter constamment le modèle en nouvelles observations pour obtenir des prédictions au plus près de la réalité du terrain.

Dans l’idéal, le modèle devrait pouvoir se renouveler en temps réel grâce à un flux de données continu. Cependant une approche plus sécurisée consiste à entraîner le modèle par batch successifs de manière à revenir à une version précédente si le modèle donne de mauvais résultats, par exemple dans le cas d’un biais. Les méthodes agiles de A/B testing prennent tout leur sens dans ce contexte : il s’agit de tester la nouvelle version sur une petite partie des utilisateurs, dans les même conditions que la version actuelle, puis de les comparer pour déterminer laquelle donne les meilleurs résultats. Cette approche permet une meilleure compréhension des résultats du modèle et donc d’en faciliter l’adoption.

Ces 4 bonnes pratiques sont issues du retour d’expérience de BI consulting acquis lors de nombreuses missions de conseil et d’accompagnement de ses clients du secteur Banque / Finance / Assurance sur des projets d’intelligence artificielle.

Par  Julien Bassinot, stagiaire Data chez BI consulting

Sources :

1 – Webinar Stim :

https://app.livestorm.co/stim/reussir-ses-projets-dinnovation-en-les-replacant-au-coeur-de-la-strategie-dentreprise-1?utm_source=Livestorm+company+page

2 – Rapport Oracle :

https://www.oracle.com/a/ocom/docs/oracle-ds-data-ops-map-r.pdf

3 – Article Medium de Parul Pandey (Schema : Axel de Romblay) :

https://heartbeat.fritz.ai/automl-the-next-wave-of-machine-learning-5494baac615f

Article Skim : https://www.skimtechnologies.com/3-reasons-why-automl-wont-replace-data-scientists-yet/index.html

 

Article
Précédent
Article
Suivant