Contributions to the theory of U-statistics and empirical processes - Laboratoire LMAC - Laboratoire de Mathématiques Appliquées de Compiègne
Thèse Année : 2022

Contributions to the theory of U-statistics and empirical processes

Contributions à la théorie des U-statistiques et processus empiriques

Résumé

In this dissertation, we are interested in nonparametric regression estimation models. More precisely, we are concerned with a class of conditional U-statistics estimators. Conditional U-statistics can be viewed as a generalization of the Nadaray-Watson estimator. The latter uses a smoothing kernel function to “average” response variable values within a predictor range. Stute generalizes the Nadaraya-Watson estimator first by replacing simple weighted averages in the numerator and denominator with U-statistics. Then, using a collection of predictor random variables, he predicts the conditional expectation of the U-statistic kernel function. This generalization is prosperous and influential in mathematical statistics due to its outstanding scientific utility and fascinating theoretical complexity. However, like any other kernel estimation technique, the question of choosing a suitable bandwidth to balance the variance-bias trade off is a subject that remains insufficiently addressed in the literature on conditional U-statistics when explanatory variables are functional. In the first part, we introduce the k nearest neighborhoods estimator of the conditional U-statistics depending on an infinite-dimensional covariate. A sharp uniform in the number of neighborhoods (UINN) limit law for the proposed estimator is presented. Such a result allows the NN to vary within a complete range for which the estimator is consistent. Consequently, it represents an interesting guideline in practice to select the optimal NN in nonparametric functional data analysis. In addition, uniform consistency is also established over ϕ ∈F for a suitably restricted class F, in both cases bounded and unbounded, satisfying some moment conditions and some mild conditions on the model. As a by-product of our proofs, we state consistency results for the k-NN conditional U-statistics, under the random censoring, are uniform in the number of neighbors. The second part of the thesis deals with a general nonparametric statistical curve estimation setting, including the Stute estimator as a particular case. The class of “delta sequence estimators” is defined and treated here. This class also includes the orthogonal series and histogram methods. We partially extend these results to the setting of the functional data. The major part of the thesis is motivated by machine learning problems, including, among many others, the discrimination problems, the metric learning, and the multipartite ranking.
Dans cette thèse, nous nous intéressons principalement à l’estimation des modèles de régression non paramétrique. Plus précisément, nous nous intéressons à une classe d’estimateurs des U-statistiques conditionnelles. Les U-statistiques conditionnelles peuvent être considérées comme une généralisation de l’estimateur de Nadaray-Watson. Ce dernier utilise les méthodes à noyau pour “moyenner” les valeurs des variables réponses. Stute généralise l’estimateur de Nadaraya-Watson en remplaçant les moyennes pondérées simples au numérateur et au dénominateur par des U-statistiques. Ensuite, en utilisant une collection de variables aléatoires prédictives, il prédit l’espérance conditionnelle de la fonction noyau des U-statistiques. Cette généralisation est prospère et influente dans la statistique mathématique en raison de son utilité scientifique exceptionnelle et de sa fascinante complexité théorique. Cependant, comme toute autre technique d’estimation par noyau, la question du choix de la fenêtre de lissage appropriée pour équilibrer le compromis variance-biais, est un sujet qui reste mal abordé dans la littérature sur les U-statistiques conditionnelles lorsque les variables explicatives sont fonctionnelles. Dans la première partie de la thèse, nous introduisons l’estimateur k des plus proches voisins des U-statistiques conditionnelles dépendant d’une covariable de dimension infinie. La convergence uniforme en termes de nombre de voisinages (UINN) pour l’estimateur proposé est présentée. Un tel résultat permet de varier le nombre de voisinages dans une plage complète pour laquelle l’estimateur reste consistant. Par conséquent, ce résultat représente une ligne directrice intéressante dans la pratique pour sélectionner le nombre de voisinages optimal dans l’analyse des données fonctionnelles non paramétriques. De plus, nos résultats sont uniformes sur une classe de fonctions convenablement choisie F, dans les deux cas bornée et non bornée, satisfaisant des conditions de moment et certaines conditions générales sur l’entropie. En tant que sous-produit de nos preuves, nous énonçons des résultats de convergence pour le k-NN des U-statistiques conditionnelles, dans le cadre de la censure aléatoire, uniformes en nombre de voisins. La deuxième partie de la thèse traite un cadre général d’estimation non paramétrique incluant l’estimateur de Stute comme cas particulier. La classe des « estimateurs de delta séquence » est introduite et traitée dans ce travail. Cette classe comprend également les séries orthogonales et les méthodes d’histogramme. Nous étendons partiellement ces résultats au cadre des données fonctionnelles. La majeure partie de la thèse est motivée par les problèmes d’apprentissage, y compris parmi beaucoup d’autres, les problèmes de discrimination, l’apprentissage métrique et le "classement multipartite".
Fichier principal
Vignette du fichier
These_UTC_Amel_Nezzal.pdf (1.51 Mo) Télécharger le fichier
Origine Version validée par le jury (STAR)

Dates et versions

tel-04640072 , version 1 (09-07-2024)

Identifiants

  • HAL Id : tel-04640072 , version 1

Citer

Amel Nezzal. Contributions to the theory of U-statistics and empirical processes. Mathematics [math]. Université de Technologie de Compiègne, 2022. English. ⟨NNT : 2022COMP2704⟩. ⟨tel-04640072⟩
130 Consultations
45 Téléchargements

Partager

More