A Comparison between NMT and PBSMT Performance for Translating Noisy User-Generated Content

Abstract : This work compares the performances achieved by Phrase-Based Statistical Ma- chine Translation systems (PBSMT) and attention-based Neural Machine Transla- tion systems (NMT) when translating User Generated Content (UGC), as encountered in social medias, from French to English. We show that, contrary to what could be ex- pected, PBSMT outperforms NMT when translating non-canonical inputs. Our error analysis uncovers the specificities of UGC that are problematic for sequential NMT architectures and suggests new avenue for improving NMT models.
Type de document :
Communication dans un congrès
Liste complète des métadonnées

Littérature citée [47 références]  Voir  Masquer  Télécharger

https://hal.archives-ouvertes.fr/hal-02270524
Contributeur : Djamé Seddah <>
Soumis le : dimanche 25 août 2019 - 21:10:19
Dernière modification le : jeudi 2 janvier 2020 - 14:58:03
Archivage à long terme le : vendredi 10 janvier 2020 - 03:14:13

Fichier

nodalida2019.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-02270524, version 1

Citation

José Carlos Rosales Nunez, Djamé Seddah, Guillaume Wisniewski. A Comparison between NMT and PBSMT Performance for Translating Noisy User-Generated Content. The 22nd Nordic Conference on Computational Linguistics (NoDaLiDa’19), Sep 2019, Turku, Finland. ⟨hal-02270524⟩

Partager

Métriques

Consultations de la notice

121

Téléchargements de fichiers

104