Sensitivity of the Gibbs Algorithm to Data Aggregation in Supervised Machine Learning - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Rapport Année : 2022

Sensitivity of the Gibbs Algorithm to Data Aggregation in Supervised Machine Learning

Sensibilité de la Valeur Espérée du Risque Empirique Induit par l’Algorithme de Gibbs dans le Problème d’Apprentissage Supervisé

Résumé

An explicit expression for the sensitivity of the expected empirical risk (EER) induced by the Gibbs algorithm (GA) is presented in the context of supervised machine learning. The sensitivity is defined as the difference between the EER induced by the GA and the EER induced by an alternative probability measure on the models. When several datasets are available, the sensitivity plays a central role to determine whether or not a lower EER might be observed by aggregating several datasets. Necessary and sufficient conditions for decreasing the EER by dataset aggregation are presented. Such conditions, which are on the GA parameters and the referencemeasures assumed for each constituent dataset, boils down to the evaluation of the sign of the sum of some relative entropy terms. From this perspective, sensitivity appears as (a) an alternative metric to evaluate the generalization capabilities of the Gibbs algorithm; and (b) a theoretical ground to study the use of several datasets describing the same phenomenon, yet subject to different data acquisition systems, i.e., datasets with different statistical properties.
Une expression explicite de la sensibilité du risque empirique espéré (REE) induit par l’algorithme de Gibbs (AG) dans le problème de l’apprentissage automatique supervisé est présentée. La sensibilité est définie comme la différence entre l’REE induit par l’AG et l’REE induit par une mesure de probabilité alternative sur les modèles. Lorsque plusieurs ensembles de données sont disponibles, la sensibilité joue un rôle central pour déterminer si un REE plus petit peut-être observé comme résultat de l’agrégation de plusieurs ensembles de données. Les conditions nécessaires et suffisantes pour observer une diminution de l’EER due à l’agrégation des données sont présentées. De telles conditions, qui sont sur les paramètres de l’AG et les mesures de référence supposées pour chaque ensemble de données, se résument à l’évaluation du signe d’une somme de certains termes d’entropie relative. À la lumière de ces résultats, la sensibilité apparaît comme (a) une métrique alternative pour évaluer les capacités de généralisation de l’algorithme de Gibbs; et (b) un cadre théorique pour étudier l’impact de l’utilisation de plusieurs ensembles de données décrivant le même phénomène mais soumis à différents systèmes d’acquisition de données, ce qui implique par exemple, différentes propriétés statistiques pour chaque ensemble de données.
Fichier principal
Vignette du fichier
RR9474.pdf (779.98 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-03703628 , version 1 (24-06-2022)
hal-03703628 , version 2 (06-07-2022)
hal-03703628 , version 3 (07-07-2022)

Identifiants

  • HAL Id : hal-03703628 , version 2

Citer

Samir M Perlaza, Iñaki Esnaola, H Vincent Poor. Sensitivity of the Gibbs Algorithm to Data Aggregation in Supervised Machine Learning. [Research Report] RR-9474, Inria. 2022, pp.22. ⟨hal-03703628v2⟩
153 Consultations
259 Téléchargements

Partager

Gmail Facebook X LinkedIn More