Aller au contenu principal
Bluecoders
← Glossaire de la tech

Inference

TermeProblématique

En machine learning, l'inférence (en anglais inference) désigne l'étape où un modèle entraîné est utilisé pour faire des prédictions sur de nouvelles données, par opposition à la phase d'entraînement.

En machine learning, l'inférence (en anglais inference) désigne l'étape où un modèle entraîné est utilisé pour faire des prédictions sur de nouvelles données, par opposition à la phase d'entraînement.

Dans le cas d'un LLM, une inférence est un appel qui prend un prompt et renvoie une complétion. Elle a un coût en compute (souvent exprimé en tokens), une latence (temps avant le premier token, débit de tokens par seconde) et un coût financier qui peut devenir significatif à l'échelle.

L'optimisation de l'inférence (quantization, batching, KV cache, decoding spéculatif, distillation) est devenue un domaine d'ingénierie à part entière, avec des moteurs spécialisés (vLLM, TensorRT-LLM, llama.cpp) et des fournisseurs dédiés (Together AI, Fireworks, Groq).

Prêts à trouver le maillon manquant de votre équipe ?

Échangeons sur vos besoins de recrutement. Une équipe vous répond rapidement pour qualifier votre besoin et lancer la mission.