Toward Genre Adapted Closed Captioning
Résumé
This paper studies the generation of intralingual closed captions from automatic speech transcripts, with the aim to assess techniques for multi-genre captioning. Captions and subtitles greatly vary in form and content depending on the programs genres and subtitling styles, resulting for instance in significantly different compression rates and lexical content. Borrowing ideas from the multi-domain machine translation literature, we implement and contrast several adaptation methods on a diverse set of programs broadcast on the French public TV. Our results show that such multi-domain adaption techniques are effective and help to improve our automatic subtitling system.
Cet article étudie la génération de sous-titres monolingues à partir de transcriptions vocales automatiques, dans le but d'évaluer les techniques de sous-titrage multi-genres. La forme et le contenu des sous-titres varient considérablement en fonction des genres de programmes et des styles de sous-titrage, ce qui se traduit par exemple par des taux de compression et des contenus lexicaux très différents. En empruntant des idées à la littérature de la traduction automatique multi-domaine, nous mettons en œuvre et comparons plusieurs méthodes d'adaptation sur un ensemble diversifié de programmes diffusés sur la télévision publique française. Nos résultats montrent que ces techniques d'adaptation multi-domaines sont efficaces et permettent d'améliorer notre système de sous-titrage automatique.
Origine : Fichiers éditeurs autorisés sur une archive ouverte