MSE * * : Multi-modal semantic embeddings for datasets with several positive matchings

Jérémie Huteau; Adrian Basarab; Florence Dupin de Saint-Cyr

doi:10.1201/9781003313267-4

Chapitre D'ouvrage Année : 2023

MSE * * : Multi-modal semantic embeddings for datasets with several positive matchings

MSE **: Plongement sémantique multi-modal pour des ensembles de données avec plusieurs appariement positifs

(1) , (2, 3) , (1, 4)

1
2
3
4

Jérémie Huteau

Fonction : Auteur

Argumentation, Décision, Raisonnement, Incertitude et Apprentissage

Adrian Basarab

Fonction : Auteur
PersonId : 741982
IdHAL : adrian-basarab
ORCID : 0000-0002-5642-7244
IdRef : 144148072

CoMputational imagINg anD viSion

Imagerie Ultrasonore

Florence Dupin de Saint-Cyr

Fonction : Auteur
PersonId : 740881
IdHAL : florence-dupin-de-saint-cyr
ORCID : 0000-0001-7891-9920
IdRef : 132517825

Argumentation, Décision, Raisonnement, Incertitude et Apprentissage

Université Toulouse III - Paul Sabatier

Résumé

In the context where the user wants to retrieve an image corresponding to a sentence, deep learning frameworks have started to give very good results. More precisely contrastive learning can be used to learn good representations of the same object presented under different modalities (text, image, video, etc.). The common representation of the same object is called semantic embedding, and in the case of image and text modalities it becomes visual semantic embedding (VSE). In this paper, we propose an approach which extends a visual semantic embedding approach called VSE ++ with the ability to handle multiple-modalities and to dispose of several positive items of the same modality for one object. We compare the two methods and we show that despite a better expressivity MSE * * gives nearly the same results as VSE ++ on several datasets. We show that the Loss function of MSE * * is more accurate for some hard cases of our dataset. This work opens several perspectives: 1) use MSE * * on other datasets having many examples of each class (e.g., a sentence that could be linked with several images), 2) use a VSE model to find new positive pairs and to eliminate false negatives of the dataset, 3) associate images with logical formulas. This last perspective could allow for post-process reasoning. It could also improve the accuracy by enabling us to incorporate the specificity of formulas when comparing the similarities of the images associated to them.

Dans un contexte où l'utilisateur souhaite retrouver une image correspondant à une phrase, les cadres d'apprentissage profond ont commencé à donner de très bons résultats. Plus précisément, l'apprentissage contrastif peut être utilisé pour apprendre de bonnes représentations du même objet présenté sous différentes modalités (texte, image, vidéo, etc.). La représentation commune d'un même objet est appelée plongement sémantique, et dans le cas des modalités image et texte, elle devient plongement sémantique visuel (VSE pour Visual semantic embedding). Dans cet article, nous proposons une approche qui étend une approche de plongement sémantique visuel appelée VSE ++ avec la capacité de gérer des modalités multiples et de disposer de plusieurs éléments positifs de la même modalité pour un objet. Nous comparons les deux méthodes et nous montrons que, malgré une meilleure expressivité, MSE ** donne presque les mêmes résultats que VSE ++ sur plusieurs ensembles de données. Nous montrons que la fonction de perte de MSE** est plus précise pour certains cas difficiles de notre jeu de données. Ce travail ouvre plusieurs perspectives : 1) utiliser MSE ** sur d'autres jeux de données ayant de nombreux exemples de chaque classe (par exemple, une phrase qui pourrait être liée à plusieurs images), 2) utiliser un modèle VSE pour trouver de nouvelles paires positives et pour éliminer les faux négatifs du jeu de données, 3) associer des images à des formules logiques. Cette dernière perspective pourrait permettre un raisonnement a posteriori. Elle pourrait également améliorer la précision en prenant en compte la spécificité des formules lors de la comparaison des similarités des images qui leur sont associées.

Mots clés

Deep Learning Contrastive Learning Triplet Loss

Domaines

Informatique [cs]

Fichier principal

DraftChapitre_Jeremie_HUTEAU.pdf (1.07 Mo)

000000000785.jpg (130.54 Ko)

000000024919.jpg (173.13 Ko)

000000168593.jpg (134.64 Ko)

000000303713.jpg (148.29 Ko)

000000504580.jpg (163.48 Ko)

history.txt (7.15 Ko)

Origine	Fichiers produits par l'(les) auteur(s)
licence	Paternité

Florence Dupin de Saint-Cyr : Connectez-vous pour contacter le contributeur

https://hal.science/hal-04166570

Soumis le : jeudi 20 juillet 2023-00:08:32

Dernière modification le : vendredi 19 juillet 2024-14:04:00

Dates et versions

hal-04166570 , version 1 (20-07-2023)

Licence

Paternité

Identifiants

HAL Id : hal-04166570 , version 1
DOI : 10.1201/9781003313267-4

Citer

Jérémie Huteau, Adrian Basarab, Florence Dupin de Saint-Cyr. MSE * * : Multi-modal semantic embeddings for datasets with several positive matchings. Sanju Tiwari; Fernando Ortiz Rodriguez; Sarra Ben Abbes; Patience Usoro Usip; Rim Hantach. Semantic AI in Knowledge Graphs, Taylor & Francis Group, pp.91-110, 2023, 978-1003313267. ⟨10.1201/9781003313267-4⟩. ⟨hal-04166570⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-ST-ETIENNE UNIV-TLSE2 CNRS UNIV-LYON1 INSA-LYON CREATIS UT1-CAPITOLE INSA-GROUPE UDL IRIT IRIT-MINDS IRIT-ADRIA IRIT-SI IRIT-IA IRIT-UT3 TOULOUSE-INP UNIV-UT3 UT3-TOULOUSEINP

108 Consultations

84 Téléchargements

MSE * * : Multi-modal semantic embeddings for datasets with several positive matchings

MSE **: Plongement sémantique multi-modal pour des ensembles de données avec plusieurs appariement positifs

Résumé

Mots clés

Domaines

Dates et versions

Licence

Identifiants

Citer

Exporter

Collections

Altmetric

Partager