Differential Privacy for Metric Spaces: Information-Theoretic Models for Privacy and Utility with New Applications to Metric Domains

Natasha Fernandes

Résumé

The problem of data privacy - protecting sensitive or personal data from discovery - has been a long-standing research issue. In this regard, differential privacy, introduced in 2006, is considered to be the gold standard. Differential privacy was designed to protect the privacy of individuals in statistical datasets such as census datasets. Its widespread popularity has led to interest in applying differential privacy to new domains for which it was not originally designed, such as text documents. This raises questions regarding the interpretability of differential privacy's guarantees, which are usually expressed in the language of statistical disclosure control. In addition, it escalates the need for answers to core issues currently debated in the differential privacy community: how does the application of differential privacy protect against inference attacks? How can the use of noise-adding mechanisms guarantee the release of useful information? And how can this privacy-utility balance be achieved? The goal of this thesis is to address these foundational questions. Firstly, we approach the problem of interpretability by exploring a generalisation of differential privacy for metric domains known as metric differential privacy or d-privacy. Metric differential privacy abstracts away from the particulars of statistical databases and permits reasoning about privacy on more general domains endowed with a metric. This allows differential privacy's guarantees to be understood in more general terms which can be applied to arbitrary domains of interest, including text documents. Secondly, we propose to study the key questions surrounding privacy and utility in differential privacy using the Quantitative Information Flow (QIF) framework, an information-theoretic framework currently used to analyse threats to secure systems. In this thesis, we repurpose QIF to analyse the privacy and utility guarantees provided by differentially private systems modelled as probabilistic channels. Using information flow analysis we examine the privacy characteristics of d-private mechanisms, finding new ways to compare them with respect to the protection they afford against arbitrary adversarial threats; we examine the utility characteristics of d-private mechanisms, discovering a new characterisation for optimal mechanisms and a proof of the universal optimality of the Laplace mechanism; and we re-examine the well-known privacy-utility trade-off for d-private mechanisms, finding new models for describing the relationship between privacy and utility via correlations. The second part of this thesis is dedicated to the demonstration of the practical applicability of d-privacy to novel and complex domains. We present three new sample applications of d-privacy: to text document privacy, statistical utility and private nearest neighbour search. In each of these applications, we show how the use of d-privacy, and an understanding of the metrics on the domain, permit reasoning about privacy and utility. This opens up new methods of exploring privacy in these domains, as well as providing guidelines for further applications of differential privacy to new domains.

Le problème de la confidentialité des données – la protection des données sensibles ou personnelles – est un problème de recherche de longue date. La confidentialité différentielle, intro- duite en 2006, est considéré comme la référence en la matière. Elle a été conçue pour protéger la confidentialité des données privées dans des jeux de données statistiques tels que les ceux de recensement. Sa grande popularité a conduit à un interêt à l’appliquer dans de nouveaux domaines pour lesquels elle n’était pas originellement conçue, tels que des documents de texte. Cela soulève des questions sur l’interprétabilité des garanties apportées par la confidentialité différentielle, qui sont en général exprimées dans le language de contrôle statistique de la divulgation. De plus, cela accentue le besoin de répondre à des problèmes centraux au débat actuel au sein de la communauté de la confidentialité différentielle: comment l’application de la confidentialité différentielle protège-t-elle contre les attaques d’inférence? Comment l’utilisation de mécanismes d’ajout de bruit peut-elle garantir la publication d’information utile? Et comment l’équilibre "privacy-utility" peut-il être obtenu? Le but de cette thèse est de répondre à ces questions de fond sur la confidentialité différentielle. Tout d’abord, nous abordons le problème de l’interprétabilité en explorant une généralisation de la confidentialité différentielle pour des espaces métriques, connue sous le nom de confidentialité différentielle métrique, ou "d-privacy". La confidentialité différentielle métrique fait abstraction des détails des bases de données statistiques et permet de raisonner sur la confidentialité de domaines plus généralisés, dotés d’une distance. Cela permet une compréhension plus générale des garanties de la confidentialité différentielle, qui peut être appliquée à des domaines d’interêt arbitraire, y compris les documents de texte. Deuxièmement, nous proposons l’étude des questions clés autour de la confidentialité et la "utility" pour la confidentialité différentielle, en utilisant le système de Flot d’Information Quantitative (Quantitative Information Flow, QIF), un système de théorie de l’information actuellement utilisé pour l’analyse de menaces sur des systèmes de sécurité. Dans cette thèse, nous réutilisons QIF pour analyser les garanties de confidentialité et de "utility" fournies par des systems de confidentialité différentielle modélisés sous forme de canaux probabilistiques. En utilisant l’analyse de flot d’information, nous examinons les caractéristiques de confidentialité des mécanismes d-privacy, trouvant de nouveaux moyens de les comparer sur le plan de la protection qu’ils offrent contre des menaces arbitraires; nous examinons les caractéristiques de "utility" des mécanismes d-privacy, découvrant une nouvelle caractérisation pour les mécanismes optimaux et une preuve de l’optimalité universelle du mécanisme de Laplace; et nous examinons de nouveau le fameux compromis "privacy-utility" pour les mécanismes d-privacy, trouvant de nouveaux modèles pour décrire la relation entre confidentialité et "utility" via des correlations. La deuxième partie de cette thèse est consacrée à la démonstration de l’applicabilité pratique de la d-privacy dans des domaines nouveaux et complexes. Nous présentons trois nouveaux domaines d’application de la d-privacy: la confidentialité des document de texte, l’utilité statistique et la recherche confidentielle de plus proche voisin. Dans chacune de ces applications, nous montrons comment l’utilisation de la d-privacy, et une compréhension de la métrique sur le domaine, permet de raisonner sur la confidentialité et l’utilité. Cela ouvre à de nouvelles méthodes pour explorer la confidentialité dans ces domaines, et pour guider l’application de la confidentialité différentielle à de nouveaux domaines.

Differential Privacy for Metric Spaces: Information-Theoretic Models for Privacy and Utility with New Applications to Metric Domains

Confidentialité différentielle pour les espaces métriques: modèles théoriques de l’information pour la confidentialité et l’utilité avec de nouvelles applications aux domaines métriques

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager