Forêts aléatoires et interprétabilité des algorithmes d’apprentissage

Clément Bénard

Résumé

This thesis deals with the interpretability of learning algorithms in an industrial context. Manufacturing production and the design of industrial systems are two examples where interpretability of learning methods enables to grasp how the inputs and outputs of a system are connected, and therefore to improve the system efficiency. Although there is no consensus on a precise definition of interpretability, it is possible to identify several requirements:“simplicity, stability, and accuracy”, rarely all satisfied by existing interpretable methods. The structure and stability of random forests make them good candidates to improve the performance of interpretable algorithms. The first part of this thesis is dedicated to post-hoc methods, in particular variable importance measures for random forests. The first convergence result of Breiman’s MDA is established, and shows that this measure is strongly biased using a sensitivity analysis perspective. The Sobol-MDA algorithm is introduced to fix the MDA flaws, replacing permutations by projections. An extension to Shapley effects, an efficient importance measure when input variables are dependent,is then proposed with the SHAFF algorithm. The second part of this thesis focuses on rule learning models, which are simple and highly predictive algorithms, but are also very often unstable with respect to small data perturbations. SIRUS algorithm is designed as the extraction of a compact rule ensemble from a random forest, and considerably improves stability over state-of-the-art competitors, while preserving simplicity and accuracy.

Cette thèse traite de l’interprétabilité des algorithmes d’apprentissage dans un contexte industriel. La production manufacturière et la conception de systèmes industriels sont deux exemples d’application où l’interprétabilité des méthodes d’apprentissage permet de comprendre comment les variables d’entrées influent sur la sortie d’un système et donc d’optimiser son efficacité. Malgré l’absence de consensus sur une définition précise de l’interprétabilité, il est possible d’identifier un certain nombre de notions fondamentales:“simplicité, stabilité, précision”, rarement vérifiées simultanément par les méthodes interprétables existantes. La structure et la stabilité des forêts aléatoires en font une approche particulièrement efficace pour améliorer les performances des algorithmes d’apprentissage interprétables. La première partie de cette thèse est consacrée aux méthodes post-hoc, et en particulier aux mesures d’importance de variables dans les forêts aléatoires. Le premier résultat de convergence du MDA de Breiman est établi, et met en évidence un biais important en s’appuyant sur l’analyse de sensibilité. L’algorithme Sobol-MDA est ensuite introduit pour remédier aux défauts du MDA d’origine, en remplaçant le mécanisme de permutation par des projections. Une extension aux indices de Shapley, une mesure d’importance efficace dans le cas d’entrées dépendantes, est proposée avec l’algorithme SHAFF. La deuxième partie de cette thèse est dédiée aux modèles de règles, des algorithmes simples et fortement prédictifs, très souvent instables vis-à-vis de petites perturbations des données d’apprentissage. L’algorithme SIRUS proposé est construit à partir de l’extraction d’un ensemble de règles d’une forêt aléatoire. SIRUS améliore considérablement la stabilité de la liste de règle par rapport aux méthodes concurrentes de l’état de l’art, tout en préservant leur simplicité et leur prédictivité.

Random forests and interpretability of learning algorithms

Forêts aléatoires et interprétabilité des algorithmes d’apprentissage

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager