Multimodal
Un modèle d'IA est dit multimodal quand il peut comprendre et/ou générer plusieurs types de données simultanément : texte, image, audio, vidéo, voire d'autres signaux comme du code ou des données structurées.
Un modèle d'IA est dit multimodal quand il peut comprendre et/ou générer plusieurs types de données simultanément : texte, image, audio, vidéo, voire d'autres signaux comme du code ou des données structurées.
Les modèles multimodaux modernes (GPT-4o, Claude, Gemini) traitent ces modalités dans un espace de représentation unifié, ce qui permet par exemple de poser une question sur une photo, de transcrire un audio en y répondant, ou de générer du texte à partir d'une vidéo.
Ce paradigme remplace progressivement les pipelines historiques où chaque modalité avait son propre modèle spécialisé (OCR puis NLP, ASR puis NLP…). En 2026, presque tous les LLM frontières sont nativement multimodaux.
