Accéder directement au contenu Accéder directement à la navigation
Communication dans un congrès

Transformation d’annotations en parties du discours et lemmes vers le format Universal Dependencies : étude de cas pour l’alsacien et l’occitan

Résumé : Cet article présente un retour d’expérience sur la transformation de corpus annotés pour l’alsacien et l’occitan vers le format CONLL-U défini dans le projet Universal Dependencies. Il met en particulier l’accent sur divers points de vigilance à prendre en compte, concernant la tokénisation et la définition des catégories pour l’annotation.
Liste complète des métadonnées

Littérature citée [28 références]  Voir  Masquer  Télécharger

https://hal.archives-ouvertes.fr/hal-02123743
Contributeur : Myriam Bras <>
Soumis le : lundi 25 novembre 2019 - 08:55:44
Dernière modification le : jeudi 23 juillet 2020 - 11:44:01
Document(s) archivé(s) le : mercredi 26 février 2020 - 13:39:25

Fichier

UD_TALN19.pdf
Fichiers éditeurs autorisés sur une archive ouverte

Identifiants

  • HAL Id : hal-02123743, version 1

Citation

Aleksandra Miletic, Delphine Bernhard, Myriam Bras, Anne-Laure Ligozat, Marianne Vergez-Couret. Transformation d’annotations en parties du discours et lemmes vers le format Universal Dependencies : étude de cas pour l’alsacien et l’occitan. TALN 2019, Jul 2019, Toulouse, France. pp.427-435. ⟨hal-02123743⟩

Partager

Métriques

Consultations de la notice

165

Téléchargements de fichiers

109