Vers la génération automatique de gloses pour la documentation automatique des langues
Abstract
Une étape du processus de la documentation d’une langue consiste à annoter des énoncés recueillis sur le terrain – après enregistrement et transcription phonétique – au niveau des morphèmes. Concrètement, pour chaque unité minimale segmentée dans la séquence d’entrée, il s’agit d’attacher soit une (plus rarement) plusieurs étiquettes morphosyntaxiques, soit une étiquette de concept, le plus souvent représenté par le mot anglais correspondant. Dans la perspective d’automatiser cette phase d’annotation, nous présentons les résultats d’une étude préliminaire où nous la considérons comme une tâche d’étiquetage de séquences, dont nous chercherons à estimer la difficulté, en la comparant à une tâche d’étiquetage morphosyntaxique standard. La question principale qui nous anime étant d’évaluer la faisabilité de cette annotation lorsque les données d’apprentissages sont très limitées.
Origin | Publisher files allowed on an open archive |
---|