Vous êtes ici : UVSQ RechercheDoctoratSoutenances de thèse

Profilage et débogage par prise de traces efficaces d’applications hybrides multi-threadées HPC par Jean-Baptiste Besnard

Présentée par : Jean-Baptiste Besnard Discipline : informatique Laboratoire : PRISM

Résumé :
L’évolution des supercalculateurs est à la source de défis logiciels et architecturaux. Dans la quête de puissance de calcul, l’interdépendance des éléments du processus de simulation devient de plus en plus impactante et requiert de nouvelles approches. Cette thèse se concentre sur le développement logiciel et particulièrement sur l’observation des programmes parallèles s’exécutant sur des milliers de cœurs. Dans ce but, nous décrivons d’abord le processus de développement de manière globale avant de présenter les outils existants et les travaux associés. Dans un second temps, nous détaillons notre contribution qui consiste d’une part en des outils de débogage et profilage par prise de traces, et d’autre part en leur évolution vers un couplage en ligne qui palie les limitations d’entrées-sorties. Notre contribution couvre également la synchronisation des horloges pour la prise de traces avec la présentation d’un algorithme de synchronisation probabiliste dont nous avons quantifié l’erreur. En outre, nous décrivons un outil de caractérisation machine qui couvre l’aspect MPI. Un tel outil met en évidence la présence de bruit aussi bien sur les communications de type point-à-point que de type collective. Enfin, nous proposons et motivons une alternative à la collecte d’événements par prise de traces tout en préservant la granularité des événements et un impact réduit sur les performances, tant sur le volet utilisation CPU que sur les entrées-sorties.

Abstract :
Supercomputers evolution is at the source of both hardware and software challenges. In the quest for the highest computing power, the interdependence in-between simulation components is becoming more and more impacting, requiring new approaches. This thesis is focused on the software development aspect and particularly on the observation of parallel software when being run on several thousand cores. This observation aims at providing developers with the necessary feedback when running a program on an execution substrate which has not been modeled yet because of its complexity. In this purpose, we firstly introduce the development process from a global point of view, before describing developer tools and related work. In a second time, we present our contribution which consists in a trace based profiling and debugging tool and its evolution towards an on-line coupling method which as we will show is more scalable as it overcomes IOs limitations. Our contribution also covers our time-stamp synchronization algorithm for tracing purposes which relies on a probabilistic approach with quantified error. We also present a tool allowing machine characterization from the MPI aspect and demonstrate the presence of machine noise for both point to point and collectives, justifying the use of an empirical approach. In summary, this work proposes and motivates an alternative approach to trace based event collection while preserving event granularity and a reduced overhead.
Informations complémentaires
Michael KRAJECKI, Professeur des Universités, à l’Université de Reims Champagne-Ardenne/Département de Mathématiques et Informatique - EA 3804 - Reims - Rapporteur
Allen D.MALONY, Professeur des Universités, à l’Université d’Oregon/Département d’Informatique et des Sciences de l’Information – Eugene (Etats-Unis) - Rapporteur
William JALBY, Professeur des Universités, à l’Université de Versailles Saint-Quentin-en-Yvelines/Laboratoire Parallélisme, Réseaux, Système, Modélisation (PRISM) - Versailles - Directeur de thèse
Alfredo GOLDMAN, Professeur des Universités, à l’Université de Sao Paulo/Département d’Informatique - Sao Paulo (Brésil) - Examinateur
Marc PERACHE, Ingénieur de Recherche, au CEA - Arpajon - Examinateur
Contact :
dredval service FED :