Accéder directement au contenu Accéder directement à la navigation
Thèse

Explorations in Word Embeddings : graph-based word embedding learning and cross-lingual contextual word embedding learning

Résumé : Les plongements lexicaux sont un composant standard des architectures modernes de traitement automatique des langues (TAL). Chaque fois qu'une avancée est obtenue dans l'apprentissage de plongements lexicaux, la grande majorité des tâches de traitement automatique des langues, telles que l'étiquetage morphosyntaxique, la reconnaissance d'entités nommées, la recherche de réponses à des questions, ou l'inférence textuelle, peuvent en bénéficier. Ce travail explore la question de l'amélioration de la qualité de plongements lexicaux monolingues appris par des modèles prédictifs et celle de la mise en correspondance entre langues de plongements lexicaux contextuels créés par des modèles préentraînés de représentation de la langue comme ELMo ou BERT.Pour l'apprentissage de plongements lexicaux monolingues, je prends en compte des informations globales au corpus et génère une distribution de bruit différente pour l'échantillonnage d'exemples négatifs dans word2vec. Dans ce but, je précalcule des statistiques de cooccurrence entre mots avec corpus2graph, un paquet Python en source ouverte orienté vers les applications en TAL : il génère efficacement un graphe de cooccurrence à partir d'un grand corpus, et lui applique des algorithmes de graphes tels que les marches aléatoires. Pour la mise en correspondance translingue de plongements lexicaux, je relie les plongements lexicaux contextuels à des plongements de sens de mots. L'algorithme amélioré de création d'ancres que je propose étend également la portée des algorithmes de mise en correspondance de plongements lexicaux du cas non-contextuel au cas des plongements contextuels.
Liste complète des métadonnées

Littérature citée [122 références]  Voir  Masquer  Télécharger

https://tel.archives-ouvertes.fr/tel-02366013
Contributeur : Abes Star :  Contact
Soumis le : vendredi 15 novembre 2019 - 16:14:52
Dernière modification le : mercredi 24 juin 2020 - 14:30:09
Document(s) archivé(s) le : dimanche 16 février 2020 - 17:37:00

Fichier

82195_ZHANG_2019_archivage.pdf
Version validée par le jury (STAR)

Identifiants

  • HAL Id : tel-02366013, version 1

Citation

Zheng Zhang. Explorations in Word Embeddings : graph-based word embedding learning and cross-lingual contextual word embedding learning. Computation and Language [cs.CL]. Université Paris-Saclay, 2019. English. ⟨NNT : 2019SACLS369⟩. ⟨tel-02366013⟩

Partager

Métriques

Consultations de la notice

331

Téléchargements de fichiers

1475