En poursuivant votre navigation, vous acceptez l'utilisation de cookies destinés à améliorer la performance de ce site et à vous proposer des services et contenus personnalisés.

X

Axes de recherche

Données      Modélisation      Apprentissage      Infrastructure

La science des données se présente aujourd’hui comme une des disciplines avec un haut potentiel innovateur. Cette recherche est transversale avec des ponts multiples entre les mathématiques (les statistiques plus précisément) et l’informatique.

Il est par nature un domaine pluridisciplinaire, qui demande une compréhension profonde du domaine concerné.

Les enjeux sont de taille : Il s’agit  par exemple d’extraire des informations des donnés d’assurance dans le but de réduire les coûts pour l’assureur tout en garantissant une amélioration des services proposés, de détecter des signaux faibles  ou des anomalies en pharmaco-épidémiologie,  d’optimiser d’un point de vue médico-économique des parcours de soins dans une pathologie donnée ou encore de proposer un score de conduite afin de responsabiliser les conducteurs automobiles.

La spécificité de la recherche dans ce domaine  viens principalement des caractéristiques des donnés à traiter. La difficulté se trouve principalement dans la structure complexe de l’information enfermé dans ces données. Ils ne sont pas nécessairement issues d’un plan d’expérience et donc ils n’ont pas forcément une structure reconnaissable, ils peuvent être incomplets, avoir une grande hétérogénéité mais sur tout, les données sont massives. Ils peuvent être produits à une grande vitesse et demander une grand vitesse d’analyse … les décisions doivent être prise dans certains cas pratiquement de façon instantanée.

La particularité du grand volume de donnés (Big Data) soulève des problèmes d’acquisition, stockage, préparation, visualisation sans parler du traitement proprement dit.

Il est clair que l’apparition de ce type des données oblige les chercheurs à se poser la question de comment aborder cette recherche : quels axes, quelles méthodes ?

L’équipe de Data Science initiative couvre une grande partie des différents aspects de la recherche en science des donnés. C’est une équipe d’excellence en mathématiques appliqués, statistique et informatique qui se fixe comme objectif de développer des méthodologies innovantes dans le cadre de recherches académiques exigeantes. C’est une équipe avec une très grande expérience du travail sur des applications concrètes à fort impact sociétal et/ou industriel.

L’initiative travaille dans un échange soutenu avec de nombreux partenaires industriels et institutionnels. Son éventail de compétences en mathématiques et informatique permettent, dans le processus de développement, un va-et-vient entre les modèles statistiques, leur implémentation (choix du hardware approprié, optimisation des modèles sur le hardware retenu) et leur utilisation.

Dans un souci de faire évoluer la recherche en Data Science, les algorithmes et codes issus de ces développements sont mis à disposition de la communauté en mode « open source ».

Le Data Science Initiative investit son effort dans 5 axes  principaux :

Données (non) structurées ou comment fait-on pour décrire les données ?

Nous sommes entrés dans l’ère du Big Data . L’explosion et la profusion des données disponibles soulèvent de nouveaux défis, de nouvelles opportunités dans de très nombreuses disciplines avec, potentiellement, de forts impacts scientifiques,  entrepreneuriaux ou encore sociétaux.

Les données sont au cœur des problématiques de Big Data et la formalisation de leur structure est une étape incontournable.  Il ne s’agit pas d’un domaine de recherche en soi, mais bien d’un passage obligé dans la démarche scientifique du chercheur Science des Données.

Les différentes formes que peuvent prendre ces jeux de données (souvent hétérogènes) forcent des approches  (preprocessing, visualisation, modélisation, …) très différentes.  Ils peuvent être « structurés ». Ils représentent alors souvent des listes indépendantes de « caractéristiques » (ou « features ») : données biologiques de patients (poids, tension, âge, etc…), données clients d’une banque ou d’un site e-commerce, … Ces caractéristiques peuvent d’ailleurs correspondre à un flux temps-réel (prix d’une action sur un marché financier, liste d’achats ou de retraits carte bleue).

Mais souvent les données sont semi-structurées voire non structurées. Le modèle caractéristique/valeur n’est alors pas strictement applicable.  C’est le cas notamment de données textuelles (pages web analysées par un moteur de recherche) ou de données de graphes (liens entre différentes personnes dans un réseau social).  Sur des données peu structurées, de nombreuses tâches deviennent plus difficile. Par exemple, la recherche d’un mot ou d’un groupe de mots dans un texte doit généralement tenir compte de toutes les formes que peuvent prendre les différents mots voire le groupe de mot lui-même.

Un chercheur en Science des Données peut avoir un domaine de prédilection : série temporelle, graphe, texte, ...

Modélisation ou comment représenter mathématiquement un phénomène ?

La modélisation statistique est une façon d’approximer, de manière simplifiée et formalisée mathématiquement, la « réalité », c’est-à-dire les processus qui génèrent les données.
Les modèles ainsi construits dépendent généralement alors d’un certain nombre de paramètres qui doivent être estimés grâce à la confrontation avec cette réalité (les vraies données). 
Un « bon » modèle est alors un modèle qui, pour un jeu de paramètres donné, permet de bien décrire les données et leurs structures sous-jacentes. Il contient généralement une composante aléatoire (dépendant de paramètres) permettant une certaine souplesse de description. 
Lorsque le nombre de paramètres est relativement élevé et qu’ils permettent ainsi des structures de nature très différente (avec peu d’a priori), on parle alors généralement de « modèles non-paramétriques ». 
Il existe de très nombreuses sortes de modèles statistiques. On peut les catégoriser en fonction de leur structure formelle. 
Lorsque la structure sous-jacente au modèle est hiérarchisée (par exemple une première structure au niveau d’un ensemble d’individus, puis une autre au niveau des différentes catégories de ces individus et enfin une dernière au niveau de l’individu lui-même), on parle de « modèles hiérarchiques ». Les « modèles à variables latentes » correspondent quant à eux au cas où les données observées suivent des lois simples dont les paramètres dépendent de variables latentes, non observées (ainsi, les données observées associées à un individu dépendraient d’une catégorie qui elle est inobservable). 

Un modèle statistique peut être aussi classé en fonction du type de phénomène qu’il cherche à décrire, à identifier. Ainsi dans les « modèles de survie », le but est de formaliser les liens de cause à effet entre un événement bien identifié (la « mort » d’un individu) et différentes facteurs de risque. Les « modèles de Hawkes »  sont utilisés aujourd’hui pour identifier les liens existants et la dynamique de propagation d’information entre différents « nœuds »  d'un réseau (propagation de twits sur twitter, propagation d’un tremblement de terre, …). Les «  modèles de population » quant à eux décrivent des phénomènes biologiques ou physiques observés au sein d’un ensemble d’individus, ainsi que la variabilité entre ces individus. Cette approche trouve toute sa place dans des domaines tels que la pharmacométrie lorsqu’il s’agit de décrire quantitativement les interactions entre maladies, médicaments et patients. Ces modèles tiennent compte du fait que différents patients réagissent différemment à une même maladie et à un même traitement. 

Apprentissage automatique ou comment écrire des instructions pour automatiser les prises de désistions ?

L'apprentissage automatique ou l'apprentissage statistique consiste en la conception et le développement de méthodes permettant à une machine d'apprendre à exploiter des données, principalement dans un but explicatif ou prédictif.

On distingue deux types d'apprentissage. En apprentissage supervisé, on dispose d'un étiquetage des données, et on cherche alors à construire des algorithmes de prédiction de ces étiquettes à partir d'un jeu de donnée d'entrainement. Les exemples les plus classiques sont les problèmes de régression et de classification.

En apprentissage non-supervisé, on ne dispose pas d'étiquettes, on construit alors un partionnement des données (clustering) ou des représentations permettant de résumer l'information qu'elles contiennent contiennent (éventuellement découvrir des structures cachées dans les données).

Il existe d'autres formes d'apprentissage, comme l'apprentissage semi-supervisé, ou l'apprentissage par renforcement ou les algorithmes apprennent à aider l'apprentissage, dans une optique de réaliser un bon compromis entre exploitation et exploration des données.

L'apprentissage statistique est une science qui mêle intimement mathématiques appliquées et informatique, en particulier dans le contexte du Big Data, ou la volumétrie des données d'entrainement impose de prendre en compte les contraintes technologiques au sein des algorithmes.

Au sein de l'initiative nos chercheurs en apprentissage automatique travaillent sur de nombreux thèmes incluant :

 •Données manquantes (comment exploiter des données malgré la présence de « trous »  dans les données).

 • Agrégation d'estimateurs /Mélange d'experts (comment combiner des algorithmes pour améliorer la performance).

 • Sélection de variables en grande dimension (comment identifier les variables les plus significatives).

 • Systèmes de recommandation (comment « deviner »  le goût d'utilisateurs sur des produits).

Infrastructure de calcul ou quel framework (Hadoop, spark, etc …) pour le modèle de calcul ?

La croissance sans précédent de la quantité de données et leur « démocratisation » (tout un chacun est amené à être impliqué dans la « consommation » de ces données) ont générés de nouveaux défis pour les systèmes de gestion des données. Un premier défi consiste à être capable de mener des analyses statistiques sur des gigantesques ensembles de données et ce avec une réactivité proche du temps-réel. Pour atteindre cet objectif, il faut changer l’infrastructure traditionnelle afin d’intégrer de façon transparente le parallélisme du traitement des données, tout en conservant la structure de ces données (structure temporelle complexe ou structure séquentielle comme dans le cas du génome). Dans ce cadre, il faut optimiser la latence du système, le débit, mais aussi le coût de calcul (dans le cadre d’utilisation de ressources sur le cloud).

Un second défi est d’améliorer « l’intelligence » du système de gestion des données ainsi que sa convivialité. Il s’agit de combler l’écart croissant entre le volume de données et la capacité humaine limitée à appréhender ces données. De nouveaux systèmes d’exploration de données sont conçus pour guider l’utilisateur dans ces immenses jeux de données afin de l’orienter rapidement vers l’information qu’il cherche. De plus, ces systèmes doivent être en capacité de signaler d’éventuelles anomalies, accompagnés d’explications de haute qualité permettant corrections ou actions préventives.