Multimodal

TermeProblématique

Un modèle d'IA est dit multimodal quand il peut comprendre et/ou générer plusieurs types de données simultanément : texte, image, audio, vidéo, voire d'autres signaux comme du code ou des données structurées.

Un modèle d'IA est dit multimodal quand il peut comprendre et/ou générer plusieurs types de données simultanément : texte, image, audio, vidéo, voire d'autres signaux comme du code ou des données structurées.

Les modèles multimodaux modernes (GPT-4o, Claude, Gemini) traitent ces modalités dans un espace de représentation unifié, ce qui permet par exemple de poser une question sur une photo, de transcrire un audio en y répondant, ou de générer du texte à partir d'une vidéo.

Ce paradigme remplace progressivement les pipelines historiques où chaque modalité avait son propre modèle spécialisé (OCR puis NLP, ASR puis NLP…). En 2026, presque tous les LLM frontières sont nativement multimodaux.

Termes liés

Prêts à trouver le maillon manquant de votre équipe ?

Échangeons sur vos besoins de recrutement. Une équipe vous répond rapidement pour qualifier votre besoin et lancer la mission.

Démarrer un recrutement Je suis candidat

Multimodal

Termes liés

Claude

Gemini

GPT

LLM

Adresse IP

AI Act

Prêts à trouver le maillon manquant de votre équipe ?