SIMPAS: Signal IMage Probabilités numériques Apprentissage Statistique
Responsables : Emmanuel Gobet et Erwan Le Pennec, Professeurs à l'Ecole polytechnique.
Chercheurs confirmés résidents :
Emmanuel Bacry, Directeur de Recherche CNRS
Antonin Chambolle, Directeur de Recherche CNRS
Stefano De Marco, Professeur chargé de cours
Stéphane Gaiffas, Professeur chargé de cours
Josselin Garnier, Professeur
Julie Josse, Professeur chargée de cours
Eric Moulines, Professeur
Erwan Scornet, Maître de conférence
Zoltan Szabo, Professeur chargé de cours
Chercheurs Associés :
Stéphanie Allassonnière, Professeur à l'U. Paris Descartes et PCC
Gersende Fort, Directrice de Recherche CNRS et PCC
Sophie Laruelle, Maître de Conférences à l'U. Paris-Est Créteil
Matthieu Lerasle, Chargé de Recherche CNRS et PCC
Post-doctorants et Ingénieurs :
David Barrera (2016- ), MCMC and regression
Francisco Bernal (2016- ), Uncertainty Quantification
Camille Marini (2017- ), projet Morpheo
Christos Giatsidis (2015- ), Data Science initiative
Maxime Grangereau (2016- ), projet Siebel Energy Institute
Anne-Claire Jeancolas (2016- ), projet maturation SATT
Anémone Kouakou (2017- ), projet maturation SATT
Joon Kwon (2016- ), apprentissage et théorie des jeux
Max-Pol Le Brun (2016- )
Lionel Lenotre (2016- ), ANR CAESARS
Maryan Morel (2015- ), projet CNAM
Iacopo Mastromatteo (2014-2015), statistique des carnets d'ordre
Roque Porchetto (2015-2016), projet pré-maturation
Plamen Turkedjiev (2013-2015), simulation des processus non-linéaires
Samuel Vaiter (2014-2015), variational regularization in signal and image processing
Doctorants encadrés au laboratoire :
Massil Achab (2014- ), encadré par E. Bacry et S. Gaiffas
Rémi Besson (2016- ), encadré par S. Allassonnière et E. Le Pennec
Esther Boccara (2016- , Ellis Car), encadrée par E. Le Pennec
Martin Bompaire (2015- ), encadré par E. Bacry et S. Gaiffas
Romain Bompis (2010-2013), encadré par E. Gobet : Développements asymptotiques pour l’approximation de processus de diffusions
Nicolas Brosse (2016- ), encadré par E. Moulines
Juliette Chevallier (2016- ), encadrée par S. Allassonnière
Etienne Corman (2013-2016), encadré par A. Chambolle et M. Ovsjanikov (LIX) : Matching de formes
Raphael Deswartes (2014- ), encadré par G. Lecué
Loïc Devilliers (2015- ), encadré par S. Allassonnière
Antoine Havet (2016- ), encadré par E. Moulines
Adrian Iuga (2010-2013), encadré par E. Bacry et M. Hoffmann (Univ. Paris-Dauphine) : Modélisation et analyse statistique de la formation de prix à travers les échelles
Thibault Jaisson (2012-2015), encadré par E. Bacry et M. Rosenbaum (UPMC) : Etudes de problèmes statistiques venant de la microstructure des marchés
Gang Liu (2013-2016), encadré par E. Gobet : Rare event simulation and numerical resolution of dynamic programming problem
Gustaw Matulewicz (2014- ), encadré par S. Gaiffas, E. Gobet et M. Varzigiannis
Jaouad Mourtada (2016 - ), encadré par S. Gaiffas et E. Scornet
Isaque Pimentel (2015- ), encadré par E. Gobet et X. Warin (EDF)
Geneviève Robin (2016- ), encadrée par J. Josse
Jean-Baptiste Schiratti (2013-2016), encadré par S. Allassonnière
Qihao She (2013-2016), encadré par E. Gobet et N. Privault (NTU, Singapore)
Uladzislau Stazhinski (2016- ), encadré par E. Gobet
Pauline Tan (2013-2016), encadrée par A. Chambolle et P. Monasse (CERTIS, ENPC) : vision stéréo
Alain Virouleau (2015- ), encadré par E. Bacry et S. Gaiffas
Hao Xu (2011-2014), encadré par S. Allassonnière et B. Thirion (INRIA Parietal)
Doctorants encadrés en dehors du laboratoire :
Mokhtar Alaya (2013-2016, UPMC), encadré par S. Gaiffas
Benoit Baylin (2015- , Telecom Paris), encadré par G. Fort
Hajer Braham (2012-2015, Telecom Paris), encadré par G. Fort
Alain Durmus (2014-2017), encadré par G. Fort et E. Moulines
Margaux Faucher (2016- , CEA Saclay), encadrée par E. Gobet
Igor Koval (2016- , ICM), encadré par S. Allassonnière et S. Durrleman
Jean Lafond (2015-2016), encadré par E. Moulines
Frédéric Logé-Munerel (2017- ), encadré par E. Le Pennec
Lucie Montuelle (2011-2014, Univ. Paris Sud), encadrée par E. Le Pennec
Islem Rekik (2010-2013), encadrée par S. Allassonnière et J. Wardlaw (Neuroradiologue, Univ. Edimbourg)
Jean-Baptiste Schiratti (2013-2017, ICM), encadré par S. Allassonnière et S. Durrleman
Solenne Thivin (2012-2015, Univ. Paris Sud), encadréé par E. Le Pennec
Départs récents :
Agathe Guilloux (Professeur Univ. d'Evry, chercheuse associée 2014-2016)
Guillaume Lecué (2012-2015, Chargé de Recherche CNRS)
Marc Lelarge (Chargé de Recherches INRIA, chercheur associé 2014-2016)
Principaux partenaires industriels et institutionnels :
Air Liquide (2017- )
CEA Saclay (2016- )
Chaire Axa Data Science for Insurance Sector (2015- )
Chaire Data Scientist (Keyrus, Orange, Thales) (2014- )
Chaire Havas, Economie des nouvelles données (2013- )
CNAM (2015- )
Data Science Initiative
EDF
Ellis Car (2016 - )
Initiative de Recherche "Méthodes numériques pour le contrôle stochastique" du laboratoire FiME
INRIA Select, INRIA Parietal
Orange Labs (2017 - )
Partenariat avec le fournisseur de données haute fréquences QUANTHOUSE
SATT Paris-Saclay (2016- )
Siebel Energy Institute (2016- )
Thales
TRENDX
Principaux financements :
ANR CAESARS "Contrôle et simulation des systèmes électriques, interaction et robustesse", E. Gobet (2015-2019)
ANR Blanc international EANOI "Efficient Algorithms for Nonsmooth Optimization in Imaging", A. Chambolle, avec Thomas Pock, TU. Graz (2012-2015)
Projet Digiteo MMoVNI "Modélisation Mathématique de la Variabilité inter-sujets en Neuro-Imagerie", S. Allassonnière (2010-2014)
Siebel Grant "Data Analytics and Stochastic Control for Optimal Management of Microgrid Generation and Storage Resources", E. Gobet (2016-2017)
Thèmes de recherche :
Cette équipe regroupe des chercheurs du CMAP dans le domaine de l’aléatoire (au sens large), dont les travaux sont axés sur le traitement numérique des données ou des modèles aléatoires, allant des fondements théoriques des algorithmes et méthodes, aux développements informatiques efficaces.
Apprentissage machine: web mining, big data, grande dimension, apprentissage non supervisé ou faiblement supervisé
Nous étudions l’apprentissage sur des données en grandes dimensions : cela présuppose l’existence d’une structure sous-jacente de faible dimension, comme par exemple des matrices de très grandes tailles mais de rang faible, des fonctions définies sur des espaces de grandes dimensions mais ne dépendant que d’un petit nombre de variables, de grands graphes mais organisés en petites communautés, etc. en lien à autant d’applications comme en réseaux sociaux, analyse textuelle et sémantique, prévision via aggrégation d’experts, fouille de données web, big-data… L’identification de chaque structure à partir de données (parfois bruitées) demande de développer des procédures statistiques spécifiques. L’exemple des méthodes par pénalisation utilisant des critères forçant la parcimonie est typique du domaine de l’apprentissage en grande dimension. Concernant l’analyse de matrices en grandes dimensions mais de faible rang, nous avons proposé des procédures avec des pénalités incitant certaines structures ou avec pénalisation d’estimateurs classiques. Les performances de ces procédures ne dépendent que de la dimension intrinsèque du problème et pas de la dimension de l’espace ambiant.
Approximations stochastiques: méthodes asymptotiques, optimisation et algorithmes stochastiques, MCMC et inférence bayésienne
Nous étudions des approximations de la loi de diffusion brownienne (approximation de densité marginale et d’espérance de fonctionnelle des trajectoires) sous forme de perturbation gaussienne (méthode de proxy et calcul de Malliavin), sous des hypothèses de régularité limitée. Les outils de grandes déviations permettent également de capter les comportements en temps court. Toutes ces techniques conduisent à de nouvelles représentations explicites, soit par formules analytiques soit par simulations gaussiennes avec termes correctifs. Les extensions aux processus non-linéaires (EDS rétrogrades, interaction à la McKean-Vlasov) et à des bruits non-browniens sont en cours. Ces résultats forment une palette d’approximations très utiles dans de multiples applications et autres méthodes numériques aléatoires. D’autre part, nous développons des algorithmes stochastiques efficaces pour l’estimation bayésienne et la classification ; les applications notamment en imagerie médicale sont très importantes et nécessitent des méthodes très performantes pour l’imagerie temps-réel. D’autres applications concernent l’inférence paramétrique et semi-paramétrique pour des modèles hiérarchiques. Sur le plan de la théorie des MCMC, nous analysons des chaines de Markov à états généraux, ayant des convergences sous-géométriques, avec un focus sur le mélange en grande dimension et sur les problèmes à champs moyens. Nous étudions également les méthodes de MCMC adaptatives.
Méthodes de Monte-Carlo: régressions empiriques en grande dimension et processus stochastiques non-linéaires, méthodes particulaires et évènements rares, grandes déviations
Nous étudions la résolution efficace par simulations Monte-Carlo et régressions empiriques des équations de programmation dynamique apparaissant en contrôle stochastique, d’équations stochastiques progressives rétrogrades ou/et en interaction. Nous cherchons à englober des non-linéarités de plus en plus générales pour lesquelles il n’existe pas encore de méthodes numériques. Cela nécessite de développer des outils dédiés pour prendre en compte les effets dimension, la non-bornitude des fonctions approximantes, les lois de probabilité générale (parfois en feedback loop), la parcimonie des représentations… Les jeux à champs moyen constituent un cadre ambitieux. Par ailleurs, nous couplons les techniques de grande déviation à temps continu et les méthodes particulaires à temps discrets pour simuler plus efficacement les grandes déviations des processus à temps continu. Nous développons également des versions parallèles des méthodes particulaires (itots de particules).
Statistique mathématique: estimation non-paramétrique, sélection de modèles, classification, réduction de dimension
Nous étudions des problèmes théoriques de sélection ou d’agrégation d’estimateurs dans un contexte de grande dimension. Concernant le problème d’agrégation d’estimateurs, nous avont pu construire deux procédures optimales alors que ce cadre est ardu car les procédures classiques en statistiques sont ici sous-optimales. D’autres résultats ont été obtenu sur la méthode de validation-croisée, l’agrégat à poids exponentiels pour le problème d’agrégation convexe et sur le modèle du single-index. Nous avons également obtenu des résultats de sélection de modèle dans des problèmes d’estimation de densité conditionnelle avec des applications à la segmentation d’image. Nous étudions également les cadres d'inférence avec données manquantes.
Statistique des processus: Les phénomènes invariants d’échelle sont couramment observés en finance et en turbulence : nous y consacrons une partie de nos travaux, notamment autour des approches multifractales (cf la marche aléatoire multifractale de Bacry) qui sont devenues aujourd’hui une référence dans le domaine. Nous nous intéressons notamment aux problèmes d’estimation dans ce cadre multifractal. D’autre part, nous étudions la statistique des processus ponctuels tant d’un point de vue probabiliste (notamment le lien avec l’invariance d’échelle à un niveau diffusif), statistique (estimation) et applicatif. Nous travaillons également sur les processus de Hawkes en grande dimension en vue de comprendre la dynamique de diffusion d'informations sur un réseau (applications au réseau social twitter et aux problèmes de risque systémique sur les marchés financiers). Nous travaillons sur l'estimation de processus ergodiques sous contraine de parcimonie ou avec observations seuillées.
Traitement du signal et de l’image: méthodes adaptatives, représentation adaptées, analyse multi-échelle, analyse multi-fractales, compressed sensing, méthodes variationnelles, classification non supervisée par mélange et sélection de modèles
Une partie des recherches du groupe concerne l’analyse statistique d’images avec application à l’imagerie médicale. Typiquement, on souhaite estimer un atlas complet du cerveau humain à partir de population d’images, tout en ayant des garanties théoriques sur l’estimé. Cela passe par (1) la modélisation des grandes variétés d’images en particulier multimodales, (2) estimer numériquement l’atlas à partir de ces modèles (par apprentissage statistique) et (3) prouver la pertinence statistique de l’estimateur permettant de fournir aux médecins un atlas dont on peut estimer la confiance. Des résultats théoriques d’estimation de densité ont par ailleurs été utilisé dans le cadre de segmentation d’images hyperspectrales par des méthodes de mélanges. Le cadre des méthodes variationnelles en traitement d’image est également abordé dans l’équipe.