Aller au contenu principal
Bluecoders
← Glossaire de la tech

Multimodal

TermeProblématique

Un modèle d'IA est dit multimodal quand il peut comprendre et/ou générer plusieurs types de données simultanément : texte, image, audio, vidéo, voire d'autres signaux comme du code ou des données structurées.

Un modèle d'IA est dit multimodal quand il peut comprendre et/ou générer plusieurs types de données simultanément : texte, image, audio, vidéo, voire d'autres signaux comme du code ou des données structurées.

Les modèles multimodaux modernes (GPT-4o, Claude, Gemini) traitent ces modalités dans un espace de représentation unifié, ce qui permet par exemple de poser une question sur une photo, de transcrire un audio en y répondant, ou de générer du texte à partir d'une vidéo.

Ce paradigme remplace progressivement les pipelines historiques où chaque modalité avait son propre modèle spécialisé (OCR puis NLP, ASR puis NLP…). En 2026, presque tous les LLM frontières sont nativement multimodaux.

Prêts à trouver le maillon manquant de votre équipe ?

Échangeons sur vos besoins de recrutement. Une équipe vous répond rapidement pour qualifier votre besoin et lancer la mission.