Aller au contenu principal
Bluecoders
← Glossaire de la tech

Token (IA)

TermeProblématique

Dans le contexte des LLM, un token est l'unité de base manipulée par le modèle : un fragment de texte (souvent une partie de mot, parfois un mot court entier ou un caractère) issu d'un découpage opéré par un tokenizer a…

Dans le contexte des LLM, un token est l'unité de base manipulée par le modèle : un fragment de texte (souvent une partie de mot, parfois un mot court entier ou un caractère) issu d'un découpage opéré par un tokenizer avant l'inférence.

Un texte français de 1 000 caractères représente typiquement entre 250 et 350 tokens. Les LLM facturent à l'usage en fonction du nombre de tokens en entrée et en sortie, et leur fenêtre de contexte est exprimée en tokens.

Le choix du tokenizer (BPE, SentencePiece, Tiktoken…) influence la performance sur les langues non-anglaises : un tokenizer mal optimisé pour le français peut consommer beaucoup plus de tokens par caractère qu'un tokenizer adapté.

Prêts à trouver le maillon manquant de votre équipe ?

Échangeons sur vos besoins de recrutement. Une équipe vous répond rapidement pour qualifier votre besoin et lancer la mission.