Data

Data Science en production

Programme de la formation

Depuis des années, le secteur de l’intelligence artificielle est en plein essor. Beaucoup d’entreprises souhaitent rentabiliser les données qu’elles accumulent en explorant les possibilités apportées par le machine learning. Cependant, beaucoup de projets peinent à apporter de la valeur au-delà de la phase de PoC (Proof of Concept) en raison d’un mauvais cadrage des besoins ou d’un manque d’anticipation de la phase d’industrialisation.

L’émergence du titre de Machine Learning Engineer ces dernières années -à cheval entre le Data Scientist et le Data Engineer- est révélateur du besoin en compétences transverses nécessaires à l’aboutissement de ces projets.

Chez Publicis Sapient Engineering, depuis plusieurs années nos Data Scientists travaillent sur les projets de bout en bout, à partir de la phase exploratoire jusqu'à l’industrialisation. Nous souhaitons vous donner des outils pour augmenter la valeur de vos projets et franchir dans les conditions les plus favorables cette étape fatidique qu’est la mise en production. C’est dans ce contexte qu’est née la formation Data Science en production !

Contenu du programme :

Section 1 : Anticiper la mise en production : cadrage, équipe et méthode de travail

L’aspect technique est certes nécessaire mais pas suffisant pour garantir le succès d’un projet Data Science. Il est essentiel de définir l’objectif visé de façon claire et de s’assurer que l’équipe a les moyens de travailler de façon productive. Cette section courte mais importante abordera les sujets suivants :

  • Les grandes erreurs des projets Data et comment les éviter
  • Définition du cadre de travail agile adapté aux projets Data Science
  • Cadrage d’un cas d’usage Data

Section 2 : Bagage technique nécessaire à la mise en production

Une bonne maîtrise de l’environnement technique est un point crucial du développement d’un produit. La connaissance des contraintes de la production et le choix des bons outils vont vous permettre d’avancer plus vite et d’éviter des mauvaises surprises lors de la mise en production.
Cette section est la plus conséquente de la formation et vous donnera toutes les compétences nécessaires à la construction d’un projet robuste et maintenable. Nous nous appuierons sur l’outil MLflow et nous présenterons les aspects suivants :

  • Structuration du projet
  • Versionning du code, des données et des modèles
  • Bonnes pratiques de développements (Clean Code, tests, refactoring, …)
  • Orchestration

Section 3 : Industrialisation d’un projet et monitoring

Une notion importante en agilité est la démarche itérative. Dans cette optique, il ne faut pas attendre que le code et les résultats soient parfaits et figés dans le marbre pour aller en production. Cette section aborde les points à traiter pour que les premiers résultats du modèle soient disponibles pour l’utilisateur final tout en conservant le niveau de qualité exigé :

  • Intégration/Déploiement continus
  • Exposition d’un modèle de machine learning
  • Monitoring de la performance
  • Réentraînement d’un modèle en production
  • Hébergement : on premise ou sur le Cloud ?
  • Introduction à Kubeflow

Méthodes pédagogiques

⅓ de pratique et ⅔ de théorie.

Tout au long de la formation vous serez amenés à modifier un projet fil rouge pour en assurer la mise en production ainsi vous mettrez en pratique pas à pas les enseignements théoriques dispensés. Vous aurez également l’occasion de discuter avec des formateurs ayant déjà réussi avec succès la mise en production de projets Data Science et de bénéficier de leurs expertises.

Durée

3 jours, soit 21 heures

Tarif HT

inter : 2 100€

intra : Selon demande

Prochaines dates

10 - February 12

14 - April 16

23 - June 25

27 - September 29

1 - December 3

Inscription

Public visé

Cette formation Data Science en production est parfaitement adaptée aux Machine Learning Engineers, Data Scientists, Data Engineers, analystes de données ou développeurs ayant une appétence pour le Machine Learning.

Prérequis

Une connaissance de Python est préférable ainsi qu’une expérience sur un projet Data Science. Les postes de travail et les logiciels nécessaires au bon déroulement de la formation sont fournis par Publicis Sapient Engineering. Les participants peuvent amener leurs propres postes s’ils le souhaitent, sans configuration particulière préalable.

La formation peut être entièrement suivie à distance.

Objectifs de la formation

A l’issue de cette formation de 3 jours, les participants sauront :

  • Identifier les étapes primordiales du processus d’industrialisation de projets Data Science
  • Mettre en place une méthodologie agile adaptée à un projet Data Science
  • Reconnaître les contraintes à prendre en considération lors de l'industrialisation
  • Se projeter en termes d’outillage logiciel et d’infrastructure
  • Développer une intuition autour des bonnes pratiques de développement
  • Manipuler les outils open source qui permettent la mise en production

Validation

À la fin de cette formation, les stagiaires recevront une attestation de présence.

Formateurs

Romain Sagean

Romain Sagean

Romain Sagean est Data engineer, Il développe des applications en spark depuis sa version 0.9 et a suivi l'évolution de cet outil. Ces principaux centre d'intérêt sont l’UX, le software Craftsmanship et tout l'écosystème Big Data. Romain anime plusieurs formations chez Xebia Training autour du domaine de la data. Il a également été speaker lors du Mois de la Data.

Vincent Villet

Vincent Villet

Vincent est Data Scientist depuis 4 ans et a travaillé sur plusieurs projets comportant un fort volet d’industrialisation qui l’ont amené à évoluer vers le poste de Machine Learning Engineer. Il a souvent observé le respect des bonnes pratiques de développement comme un élément clef de la réussite d’un projet Data, et attache une grande importance au cadrage du cas d’usage afin de s’assurer que l’algorithme réponde à un vrai besoin.