Quantization/clustering: when does k-means work? - Université Sorbonne Paris Cité Accéder directement au contenu
Pré-Publication, Document De Travail Année : 2018

Quantization/clustering: when does k-means work?

Journal de la Société Française de Statistique Quantization/Clustering: when and why does k-means work

Résumé

Though mostly used as a clustering algorithm, k-means are originally designed as a quantization algorithm. Namely, it aims at providing a compression of a probability distribution with k points. Building upon [21, 33], we try to investigate how and when these two approaches are compatible. Namely, we show that provided the sample distribution satisfies a margin like condition (in the sense of [27] for supervised learning), both the associated empirical risk minimizer and the output of Lloyd's algorithm provide almost optimal classification in certain cases (in the sense of [6]). Besides, we also show that they achieved fast and optimal convergence rates in terms of sample size and compression risk.
Résumé : Bien qu'utilisé comme algorithme de classification, les k-moyennes sont à la base conçus pour fournir un quantifieur, c'est à dire un moyen de compresser une distribution de probabilités avec k points. En nous appuyant sur les travaux de [21] et [33], nous essayerons d'expliquer en quoi et sous quelles conditions ces deux objectifs à priori distincts sont compatibles. Plus précisément, nous montrerons que dans le cas où la distribution d'où sont tirés les points satisfait une condition de type marge (baptisée ainsi par analogie avec les conditions de marge établies en classification supervisée dans [27]), non seulement le minimiseur théorique du risque empirique associé mais aussi le résultat fourni par l'algorithme de Lloyd fournissent d'une part une classification sinon optimale (au sens de [6]) du moins pertinente et d'autre part une compression rapide (en la taille de l'échantillon) et optimale.
Fichier principal
Vignette du fichier
QuantizationandClusteringHAL.pdf (384.67 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01667014 , version 1 (10-01-2018)
hal-01667014 , version 2 (29-01-2018)

Identifiants

Citer

Clément Levrard. Quantization/clustering: when does k-means work?. 2018. ⟨hal-01667014v1⟩
197 Consultations
156 Téléchargements

Altmetric

Partager

Gmail Facebook X LinkedIn More