Transformer
Le transformer est l'architecture de réseau de neurones, introduite par Google dans l'article Attention Is All You Need (2017), qui est à la base de pratiquement tous les modèles d'IA générative modernes : LLM, modèles…
Le transformer est l'architecture de réseau de neurones, introduite par Google dans l'article Attention Is All You Need (2017), qui est à la base de pratiquement tous les modèles d'IA générative modernes : LLM, modèles d'image, de code, multimodaux.
Sa principale innovation est le mécanisme d'attention : à chaque étape, le modèle pondère dynamiquement la pertinence de chaque élément en entrée par rapport aux autres, sans dépendre d'un parcours séquentiel comme les anciens RNN/LSTM. Cela autorise une parallélisation massive à l'entraînement.
GPT, BERT, Llama, Claude, Gemini, Mistral, Stable Diffusion sont tous bâtis sur des variantes du transformer. Des architectures alternatives (Mamba, RWKV, state space models) émergent pour répondre à son coût quadratique en longueur de contexte, mais le transformer reste dominant en 2026.
