Transformer

TechnoProblématique

Le transformer est l'architecture de réseau de neurones, introduite par Google dans l'article Attention Is All You Need (2017), qui est à la base de pratiquement tous les modèles d'IA générative modernes : LLM, modèles…

Le transformer est l'architecture de réseau de neurones, introduite par Google dans l'article Attention Is All You Need (2017), qui est à la base de pratiquement tous les modèles d'IA générative modernes : LLM, modèles d'image, de code, multimodaux.

Sa principale innovation est le mécanisme d'attention : à chaque étape, le modèle pondère dynamiquement la pertinence de chaque élément en entrée par rapport aux autres, sans dépendre d'un parcours séquentiel comme les anciens RNN/LSTM. Cela autorise une parallélisation massive à l'entraînement.

GPT, BERT, Llama, Claude, Gemini, Mistral, Stable Diffusion sont tous bâtis sur des variantes du transformer. Des architectures alternatives (Mamba, RWKV, state space models) émergent pour répondre à son coût quadratique en longueur de contexte, mais le transformer reste dominant en 2026.

Termes liés

Prêts à trouver le maillon manquant de votre équipe ?

Échangeons sur vos besoins de recrutement. Une équipe vous répond rapidement pour qualifier votre besoin et lancer la mission.

Démarrer un recrutement Je suis candidat

Termes liés

Claude

Gemini

GPT

LLM

Mistral

ORM

Prêts à trouver le maillon manquant de votre équipe ?