MSE * * : Multi-modal semantic embeddings for datasets with several positive matchings - Argumentation, Décision, Raisonnement, Incertitude et Apprentissage Access content directly
Book Sections Year : 2023

MSE * * : Multi-modal semantic embeddings for datasets with several positive matchings

MSE **: Plongement sémantique multi-modal pour des ensembles de données avec plusieurs appariement positifs

Abstract

In the context where the user wants to retrieve an image corresponding to a sentence, deep learning frameworks have started to give very good results. More precisely contrastive learning can be used to learn good representations of the same object presented under different modalities (text, image, video, etc.). The common representation of the same object is called semantic embedding, and in the case of image and text modalities it becomes visual semantic embedding (VSE). In this paper, we propose an approach which extends a visual semantic embedding approach called VSE ++ with the ability to handle multiple-modalities and to dispose of several positive items of the same modality for one object. We compare the two methods and we show that despite a better expressivity MSE * * gives nearly the same results as VSE ++ on several datasets. We show that the Loss function of MSE * * is more accurate for some hard cases of our dataset. This work opens several perspectives: 1) use MSE * * on other datasets having many examples of each class (e.g., a sentence that could be linked with several images), 2) use a VSE model to find new positive pairs and to eliminate false negatives of the dataset, 3) associate images with logical formulas. This last perspective could allow for post-process reasoning. It could also improve the accuracy by enabling us to incorporate the specificity of formulas when comparing the similarities of the images associated to them.
Dans un contexte où l'utilisateur souhaite retrouver une image correspondant à une phrase, les cadres d'apprentissage profond ont commencé à donner de très bons résultats. Plus précisément, l'apprentissage contrastif peut être utilisé pour apprendre de bonnes représentations du même objet présenté sous différentes modalités (texte, image, vidéo, etc.). La représentation commune d'un même objet est appelée plongement sémantique, et dans le cas des modalités image et texte, elle devient plongement sémantique visuel (VSE pour Visual semantic embedding). Dans cet article, nous proposons une approche qui étend une approche de plongement sémantique visuel appelée VSE ++ avec la capacité de gérer des modalités multiples et de disposer de plusieurs éléments positifs de la même modalité pour un objet. Nous comparons les deux méthodes et nous montrons que, malgré une meilleure expressivité, MSE ** donne presque les mêmes résultats que VSE ++ sur plusieurs ensembles de données. Nous montrons que la fonction de perte de MSE** est plus précise pour certains cas difficiles de notre jeu de données. Ce travail ouvre plusieurs perspectives : 1) utiliser MSE ** sur d'autres jeux de données ayant de nombreux exemples de chaque classe (par exemple, une phrase qui pourrait être liée à plusieurs images), 2) utiliser un modèle VSE pour trouver de nouvelles paires positives et pour éliminer les faux négatifs du jeu de données, 3) associer des images à des formules logiques. Cette dernière perspective pourrait permettre un raisonnement a posteriori. Elle pourrait également améliorer la précision en prenant en compte la spécificité des formules lors de la comparaison des similarités des images qui leur sont associées.
Fichier principal
Vignette du fichier
DraftChapitre_Jeremie_HUTEAU.pdf (1.07 Mo) Télécharger le fichier
000000000785.jpg (130.54 Ko) Télécharger le fichier
000000024919.jpg (173.13 Ko) Télécharger le fichier
000000168593.jpg (134.64 Ko) Télécharger le fichier
000000303713.jpg (148.29 Ko) Télécharger le fichier
000000504580.jpg (163.48 Ko) Télécharger le fichier
history.txt (7.15 Ko) Télécharger le fichier
Origin : Files produced by the author(s)
licence : CC BY - Attribution

Dates and versions

hal-04166570 , version 1 (20-07-2023)

Identifiers

Cite

Jérémie Huteau, Adrian Basarab, Florence Dupin de Saint-Cyr. MSE * * : Multi-modal semantic embeddings for datasets with several positive matchings. Sanju Tiwari; Fernando Ortiz Rodriguez; Sarra Ben Abbes; Patience Usoro Usip; Rim Hantach. Semantic AI in Knowledge Graphs, Taylor & Francis Group, pp.91-110, 2023, 978-1003313267. ⟨10.1201/9781003313267-4⟩. ⟨hal-04166570⟩
71 View
55 Download

Altmetric

Share

Gmail Facebook X LinkedIn More