On Graph-Based Approaches for Protein Function Annotation and Knowledge Discovery - Department of Complex Systems, Artificial Intelligence  & Robotics Accéder directement au contenu
Thèse Année : 2021

On Graph-Based Approaches for Protein Function Annotation and Knowledge Discovery

Approches à base de graphes pour l’annotation de la fonction des protéines et la découverte des connaissances

Résumé

Due to the recent advancement in genomic sequencing technologies, the number of protein entries in public databases is growing exponentially. It is important to harness this huge amount of data to describe living things at the molecular level, which is essential for understanding human disease processes and accelerating drug discovery. A prerequisite, however, is that all of these proteins be annotated with functional properties such as Enzyme Commission (EC) numbers and Gene Ontology (GO) terms. Today, only a small fraction of the proteins is functionally annotated and reviewed by expert curators because it is expensive, slow and time-consuming. Developing automatic protein function annotation tools is the way forward to reduce the gap between the annotated and unannotated proteins and to predict reliable annotations for unknown proteins. Many tools of this type already exist, but none of them are fully satisfactory. We observed that only few consider graph-based approaches and the domain composition of proteins. Indeed, domains are conserved regions across protein sequences of the same family. In this thesis, we design and evaluate graph-based approaches to perform automatic protein function annotation and we explore the impact of domain architecture on protein functions. The first part is dedicated to protein function annotation using domain similarity graph and neighborhood-based label propagation technique. We present GrAPFI (Graph-based Automatic Protein Function Inference) for automatically annotating proteins with enzymatic functions (EC numbers) and GO terms from a protein-domain similarity graph. We validate the performance of GrAPFI using six reference proteomes from UniprotKB/SwissProt and compare GrAPFI results with state-of-the-art EC prediction approaches. We find that GrAPFI achieves better accuracy and comparable or better coverage. The second part of the dissertation deals with learning representation for biological entities. At the beginning, we focus on neural network-based word embedding technique. We formulate the annotation task as a text classification task. We build a corpus of proteins as sentences composed of respective domains and learn fixed dimensional vector representation for proteins. Then, we focus on learning representation from heterogeneous biological network. We build knowledge graph integrating different sources of information related to proteins and their functions. We formulate the problem of function annotation as a link prediction task between proteins and GO terms. We propose Prot-A-GAN, a machine-learning model inspired by Generative Adversarial Network (GAN) to learn vector representation of biological entities from protein knowledge graph. We observe that Prot-A-GAN works with promising results to associate ap- propriate functions with query proteins. In conclusion, this thesis revisits the crucial problem of large-scale automatic protein function annotation in the light of innovative techniques of artificial intelligence. It opens up wide perspectives, in particular for the use of knowledge graphs, which are today available in many fields other than protein annotation thanks to the progress of data science.
Les progrès des technologies de séquençage génomique ont conduit à une croissance exponentielle du nombre de séquences protéiques dans les bases de données publiques. Il est important d’exploiter cette énorme quantité de données pour décrire les êtres vivants au niveau moléculaire, et ainsi mieux comprendre les processus pathologiques humains et accélérer la découverte de médicaments. Une condition préalable, cependant, est que toutes ces protéines soient annotées avec des propriétés fonctionnelles telles que les numéros de commission enzymatique (EC) ou les termes de l’ontologie « Gene Ontology » (GO). Aujourd’hui, seule une petite fraction des protéines est annotée fonctionnellement et examinée manuellement par des experts car c’est une tâche coûteuse, lente et chronophage. Le développement d’outils d’annotation automatique des protéines est la voie à suivre pour réduire l’écart entre séquences protéiques annotées et non annotées et produire des annotations fiables. Aucun outil déjà développés n’est pleinement satisfaisant. Seuls quelques-uns utilisent les approches à base de graphes et tiennent compte de la composition en domaines des protéines qui sont des régions conservées à travers les séquences protéiques de la même famille. Dans cette thèse, nous concevons et évaluons des approches à base de graphes pour effectuer l’annotation automatique des fonctions protéiques et nous explorons l’impact de l’architecture en domaines sur les fonctions protéiques. La première partie est consacrée à l’annotation de la fonction des protéines à l’aide d’un graphe de similarité de domaines et de techniques de propagation d’étiquettes (ou de labels) améliorées. Tout d’abord, nous présentons GrAPFI (« Graph-based Automatic Protein Function Inference ») pour l’annotation automatique des protéines par les numéros EC et par des termes GO. Nous validons les performances de GrAPFI en utilisant six protéomes de référence dans UniprotKB/SwissProt, et nous comparons les résultats de GrAPFI avec des outils de référence. Nous avons constaté que GrAPFI atteint une meilleure précision et une couverture comparable ou meilleure par rapport aux outils existants. La deuxième partie traite de l’apprentissage de représentations pour les entités biologiques. Au début, nous nous concentrons sur les techniques de plongement lexical (« word embedding »), utilisant les réseaux neuronaux. Nous formulons la tâche d’annotation comme une tâche de classification de textes. Nous construisons un corpus de protéines sous forme de phrases composées de leurs domaines respectifs et nous apprenons une représentation vectorielle à dimension fixe. Ensuite, nous portons notre attention sur l’apprentissage de représentations à partir de graphes de connaissances intégrant différentes sources de données liées aux protéines et à leurs fonctions. Nous formulons le problème d’annotation fonctionnelle des protéines comme une tâche de prédiction de liens entre une protéine et un terme GO. Nous proposons Prot-A-GAN, un modèle d’apprentissage automatique inspiré des réseaux antagonistes génératifs (GAN pour « Generative Adversarial Network »). Nous observons que Prot-A-GAN fonctionne avec des résultats prometteurs pour associer des fonctions appropriées aux protéines requêtes. En conclusion, cette thèse revisite le problème crucial de l’annotation automatique des fonctions protéiques à grande échelle en utilisant des techniques innovantes d’intelligence artificielle. Elle ouvre de larges perspectives, notamment pour l’utilisation des graphes de connaissances, disponibles aujourd’hui dans de nombreux domaines autres que l’annotation de protéines grâce aux progrès de la science des données.
Fichier principal
Vignette du fichier
DDOC_T_2021_0094_SARKER.pdf (5.31 Mo) Télécharger le fichier
DDOC_T_2021_0094_SARKER_RESUME.pdf (256.56 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

tel-03274084 , version 1 (29-06-2021)

Identifiants

  • HAL Id : tel-03274084 , version 1

Citer

Bishnu Sarker. On Graph-Based Approaches for Protein Function Annotation and Knowledge Discovery. Artificial Intelligence [cs.AI]. Université de Lorraine, 2021. English. ⟨NNT : 2021LORR0094⟩. ⟨tel-03274084⟩
275 Consultations
456 Téléchargements

Partager

Gmail Facebook X LinkedIn More