En poursuivant votre navigation, vous acceptez l'utilisation de cookies destinés à améliorer la performance de ce site et à vous proposer des services et contenus personnalisés.

X

M2 DATA SCIENCE

Les grands acteurs du monde économique ont aujourd’hui une conscience de plus en plus précises du potentiel que recèlent leurs données et recherche les moyens d’exploiter et d’en tirer le maximum d’informations utiles. Pour les aider dans cette tâche, les datascientists (littéralement les scientifiques des données) sont les personnes en charge de récupérer, stocker, organiser, traiter cette masse d’informations afin d’en tirer de la valeur.

Le datascientist est un profit d’un genre nouveau, issu de la convergence des statistiques et de l’informatique. Donner une définition précise de ce que recouvre le mot datascientist reste une gageure. Ce qui le caractérise certainement le mieux c’est la variété des compétences qu’il doit maîtriser. Il s’agit d’un profil hybride, qui doit disposer d’un solide bagage en mathématiques, statistiques mais aussi maîtriser les outils informatiques ou les infrastructures nécessaires à la gestion et au traitement des données. Il doit avoir la curiosité et la soif de comprendre le métier de secteur dans lequel il intervient. L’objectif de ce master est de vous préparer à devenir les datascientists de demain aussi bien dans le monde académique que dans le monde industriel. Une grande partie de nos étudiants choisit d’ailleurs de faire un doctorat.

Présentation du programme :

Le contexte

Un marché confronté à la pénurie de “Data Scientists”

Le Big Data marque le début d’une transformation majeure, qui va affecter de façon profonde l’ensemble des secteurs (de l’e-commerce à la recherche scientifique en passant par la finance et la santé). L’exploitation de ces immenses masses de données nécessite des techniques associant mathématiques et informatique sophistiquées visant à extraire l’information pertinente. Les entreprises font aujourd’hui face à des difficultés croissantes pour recruter les “Data Scientists” capables d’appréhender ces enjeux et de gérer cette question stratégique pour leur développement. Le Big Data est un enjeu transverse qui impacte de nombreux secteurs de l’économie : grande distribution, services publics, industrie high-tech, secteur bancaire et financier ou encore secteur biomédical avec l’avènement de la médecine individualisée.

 

Un programme d’enseignement couvrant toutes les facettes du Big Data

(Extrait de “Dessine moi un Data Scientist”, 8 leçons pour le recruteur, Compétences recherchées en DataSciences par N. Gibaud)

La maîtrise des outils de base en statistique est indispensable à qui prétend savoir décrire et analyser des données savoir ce qu’est une distribution de probabilité, comprendre les principes de la régression et de l’analyse par maîtriser les tests statistique ou encore savoir en quoi consiste une estimation bayésiennes sont autant de points qu’il faut avoir parfaitement assimilés. C’est le socle sur lequel nous nous appuierons.

Intimement lié aux statistiques l’apprentissage statistique (ou machine Learning) est un des fondamentaux de la science des données il est indispensable d’en connaître les grands principes : la différence entre apprentissage supervisé et non supervisé les notions de sur-apprentissage et de validation croisée. Une bonne connaissance des algorithmes classiques est également indispensable: arbre de décisions, machines vecteurs de support, réseau de neurones…

On ne peut pas se prétendre datascientist sans compétences en développement et en architecture informatique. En particulier la maîtrise d’un langage de script comme Python ou R est absolument indispensable. Un data scientist doit  être capable de pouvoir développer tester et valider ses modèles en autonomie. A  cela s’ajoute la connaissance d’un panel d’outils IT de fouille de données.. Il faut aussi acquérir des compétences sur les outils de stockage et de traitement des données: savoir manipuler un système  de gestion de données relationnelles (SQL) ou non relationnelles (technologies NoSQL comme Cassandra ou MongoDB), connaître les nouvelles technologies de calcul distribué et parallèle: MapReduce, écosystème Hadoop (Hive, Pig, etc), du calcul parallèle ou inmemory (Spark) ou de l’indexation (ElasticSearch).

Les enseignements auront lieu à l’X (Campus de Palaiseau) , à Télécom Paris , à l’ENSAE et à Paris Sud. Ce parcours du Master Mathématiques et Applications de l’université Paris Saclay est un élément de réponse aux attentes du plan Big Data initié par le gouvernement et qui appelait la création de formations en Data Sciences. Le programme souhaite ainsi répondre aux besoins des entreprises et combler le déficit en experts dans un secteur aujourd’hui stratégique.

Établissements partenaires

 

Langue : français

Diplôme

Le diplôme délivré est un diplôme de l’Institut Polytechnique de Paris.

Pour candidater : candidature en ligne sur le site https://www.ip-paris.fr/master-2-data-science/

Ouverture des admissions : 20 décembre 2019 / Fermeture des admissions : 28 février (session 1) - 30 avril (session 2) - 30 juin (session 3)