Enseignant-chercheur / Enseignante-chercheuse

déposez gratuitement
vos annonces et vos événements

signalez une erreur

informations générales

Analyse Multimodale des Vidéos avec LLM

L'objectif de ce projet de doctorat est de développer un cadre complet qui intègre les grands modèles de langage (Large Language Models, LLMs) avec des techniques avancées de vision par ordinateur, afin d'améliorer la compréhension, la génération et la recherche de contenus multimédias.

Apprentissage de Représentations Multimodales : Explorer des méthodes pour l'apprentissage de représentations conjointes qui fusionnent les informations textuelles et visuelles. Cela pourrait impliquer d'adapter des LLMs pré-entraînés pour traiter des entrées multimodales et d'entraîner des modèles capables de mapper l'espace sémantique du langage et l'espace visuel.

Génération de Contenu : Explorer comment les LLMs peuvent être utilisés pour générer des textes descriptifs et contextuellement pertinents pour des images et des vidéos. Cela pourrait impliquer de conditionner le modèle de langage sur des caractéristiques visuelles extraites par
un réseau de neurones convolutifs (CNN).

Compréhension Sémantique : Étudier comment le modèle combiné peut atteindre une compréhension sémantique plus approfondie du contenu. Cela pourrait impliquer l'incorporation de connaissances spécifiques à un domaine dans le LLM ou le réglage fin du modèle sur des ensembles de données spécifiques.
Vous êtes diplômé(e) d'un master 2 (ou équivalent) en informatique. Vous possédez des connaissances en Data Base, Machine/Deep Learning, natural language processing, Machine Learning for time series, ainsi qu'un bon niveau en anglais.
En savoir plus sur cette annonce sur le site de notre partenaire

posté par

logo

annonces à proximité

déposez gratuitement
vos annonces et vos événements

signalez une erreur

visiter la commune

Aux alentours