Evaluation

Modalités d’évaluation du cours

Modalités

L’objectif général de l’évaluation de ce cours est de mettre en pratique les notions étudiées (bonnes pratiques de développement et mise en production) de manière appliquée et réaliste, i.e. à travers un projet basé sur une problématique “métier” et des données réelles. Pour cela, l’évaluation sera en deux parties :

Par groupe de 3 : un projet à choisir parmi les 3 parcours (MLOps, app interactive / dashboard, publication reproductible + site web). Idéalement, on choisira un projet réel, effectué par exemple dans le cadre d’un cours précédent et qui génère un output propice à une mise en production.
Seul : effectuer une revue de code d’un autre projet. Compétence essentielle et souvent attendue d’un data scientist, la revue de code sera l’occasion de bien intégrer les bonnes pratiques de développement (cf. checklist ci-dessous) et de faire un retour bienveillant sur un autre projet que celui de son groupe.

Avertissement

Ce projet doit mobiliser des données publiquement accessibles. La récupération et structuration de ces données peut faire partie des enjeux du projet mais celles-ci ne doivent pas provenir d’un projet antérieur de votre scolarité pour lequel le partage de données n’est pas possible.

Checklist des bonnes pratiques de développement

Les bonnes pratiques de développement ci-dessous sont les indispensables de ce cours. Elles doivent être à la fois appliquées dans les projets de groupe, et à la base de la revue de code individuelle.

Utilisation de Git
- Présence d’un fichier .gitignore adapté au langage et avec des règles additionnelles pour respecter les bonnes pratiques de versioning
- Travail collaboratif : utilisation des branches et des pull requests
Présence d’un fichier README présentant le projet : contexte, objectif, comment l’utiliser ?
Présence d’un fichier LICENSE déclarant la licence (open-source) d’exploitation du projet.
Versioning des packages : présence d’un fichier requirements.txt ou d’un fichier d’environnement environment.yml pour conda
Qualité du code
- Respect des standards communautaires : utiliser un linter et/ou un formatter
- Modularité : un script principal qui appelle des modules
Structure des projets
- Respect des standards communautaires (cookiecutter)
- Modularité du projet selon le modèle évoqué dans le cours:
  - Code sur GitHub
  - Données sur S3
  - Fichiers de configuration (secrets, etc.) à part

Proposition de modularité du projet illustrée pour un projet mixte `MLOps` et *dashboard*

Revue de code

Sur le projet d’un groupe différent du sien (attribué aléatoirement au cours du semestre) :

ouvrir une pull request de revue de code via un fork (cf. chapitre sur Git pour la procédure)
donner une appréciation générale de la conformité du projet à la checklist des bonnes pratiques de développement
suggérer des pistes d’amélioration du projet

Chaque groupe, ayant reçu des revues de code de son projet, pourra prendre en compte ces pistes d’améliorations dans la mesure du temps disponible, par le biais d’une autre pull request qui devra référencer celle de la revue de code. Cette dernière partie ne sera cependant pas strictement attendue, elle sera valorisée en bonus dans la notation finale.

Reuse

CC BY-NC 4.0

Evaluation

Modalités

Checklist des bonnes pratiques de développement

Projets

Parcours MLOps

Parcours dashboard / application interactive

Parcours big data

Parcours publication reproductible

Revue de code

Reuse