Aller au contenu principal

L’X propose un cours en science des données inédit en France

Le cours d’analyse topologique des données rencontre un fort engouement parmi les élèves de 3ème année du cycle ingénieur. L’École polytechnique est l’un des rares établissements en France à dispenser un tel enseignement.

Lancé il y a tout juste deux ans au sein du département d'informatique, le cours de « Topological data analysis » remporte un vif succès auprès des élèves de l’École polytechnique. Avec une cinquantaine d’inscrits dès la première année, ce sont aujourd’hui plus de quatre-vingt étudiants de 3ème année qui suivent cet enseignement proposé en anglais. « Un chiffre remarquable pour un cours optionnel », souligne Steve Oudot, chercheur à l’Inria et professeur à l’X, à l’initiative de la création de cet enseignement au sein de l’École. La raison d’une telle réussite, le professeur l’explique par l’engouement plus général pour la science des données et tout ce qui a trait au big data, mais aussi par la singularité du contenu scientifique du cours.

Une compréhension plus fine de la forme des données
Alors que ce domaine s’intéresse aujourd’hui pour une grande part à la taille des données, « ici on s’attache surtout à leur complexité », indique Steve Oudot. Or, à l’heure actuelle, les méthodes d’analyse des données reposent généralement sur des hypothèses géométriques assez simplistes concernant la forme sous-jacente aux données. Au contraire, la topologie, dont l'objet est précisément l'étude des formes, permet d’en obtenir une compréhension et une description plus fines. « Avec la topologie appliquée à la science des données, nous cherchons à encoder les formes sous-jacentes aux données en utilisant des descripteurs de nature algébrique - servant à caractériser les données - que l’on peut facilement représenter sur un ordinateur et avec lesquels on peut faire des calculs », poursuit le chercheur.  Il existe des descripteurs pour tous types de données, que ce soit les données 3D, celles issues des réseaux sociaux, des images ou encore du son. L’idée étant d’obtenir, grâce à la topologie, de nouvelles familles de descripteurs au contenu et aux propriétés complémentaires de ce que fournissent les descripteurs existants. Combinés à ceux-ci, les descripteurs topologiques permettent d’améliorer les performances des algorithmes d’analyse, avec souvent des coûts d’apprentissage moindres. « Ils permettent également d'optimiser le cœur de certains de ces algorithmes, avec à la clé un gain en précision et en efficacité », ajoute Steve Oudot.

Un facteur certain d’évolution pour les big data
Parmi les applications de l’analyse topologique des données, des avancées ont été réalisées dans le domaine médical et ont permis, par exemple, d’identifier un nouveau sous-type de cancer du sein ainsi qu’une protéine présente chez les patientes pour lesquelles le traitement chimiothérapique fonctionnait bien. « Les méthodes topologiques ont aidé à distinguer plus précisément l’état des patientes et à affiner le classement des effets de la chimiothérapie, bien au-delà d’une simple séparation entre les patientes toujours malades d’un côté et celles qui ont guéri de l’autre », remarque le professeur. D’autres applications ont également vu le jour dans des domaines aussi variés que l’astrophysique, la science des matériaux, les réseaux ad-hoc, le traitement d’images, l’informatique graphique, les neurosciences, ou encore la biologie structurale.

Si l’analyse topologique des données ne devrait pas révolutionner le domaine des big data, elle représente pourtant un facteur certain d’évolution, considère le professeur. Cette discipline née au début des années 2000 commence en effet à susciter l’intérêt des industriels. C’est le cas du groupe Fujitsu, de l’Institut Français du Pétrole ou encore de Sysnav, des établissements possédant des données complexes à analyser. Et pour répondre à ces besoins spécifiques, le cours dispensé à l’X représente un atout certain d’autant qu’il est l’un des rares en France dans cette discipline, avec ceux de l’Université Paris Sud et du Master parisien de recherche en informatique. « Cela peut faire la différence sur un CV, reconnaît Steve Oudot. Notamment pour les étudiants qui souhaitent faire une thèse en apprentissage ou en intelligence artificielle à l’étranger ». Théo Lacombe, élève de la promotion 2013, a ainsi décidé de réaliser sa thèse en analyse topologique des données. « C'est assez gratifiant de se dire que l'on est parmi les premiers élèves au monde à qui cette discipline est enseignée, explique Théo. Il reste encore énormément de choses à découvrir dans ce domaine de recherche et cela est très motivant ». Autre signe de l’intérêt grandissant pour la discipline : Ayasdi, une jeune pousse de la Silicon Valley créée en 2009, capitalise déjà plus de 100 millions de dollars aujourd’hui.

> En savoir plus sur l'analyse topologique des données : séminaire organisé sur ce sujet le 31 mai 2017 au Collège de France