Inference

TermeProblématique

En machine learning, l'inférence (en anglais inference) désigne l'étape où un modèle entraîné est utilisé pour faire des prédictions sur de nouvelles données, par opposition à la phase d'entraînement.

En machine learning, l'inférence (en anglais inference) désigne l'étape où un modèle entraîné est utilisé pour faire des prédictions sur de nouvelles données, par opposition à la phase d'entraînement.

Dans le cas d'un LLM, une inférence est un appel qui prend un prompt et renvoie une complétion. Elle a un coût en compute (souvent exprimé en tokens), une latence (temps avant le premier token, débit de tokens par seconde) et un coût financier qui peut devenir significatif à l'échelle.

L'optimisation de l'inférence (quantization, batching, KV cache, decoding spéculatif, distillation) est devenue un domaine d'ingénierie à part entière, avec des moteurs spécialisés (vLLM, TensorRT-LLM, llama.cpp) et des fournisseurs dédiés (Together AI, Fireworks, Groq).

Termes liés

Prêts à trouver le maillon manquant de votre équipe ?

Échangeons sur vos besoins de recrutement. Une équipe vous répond rapidement pour qualifier votre besoin et lancer la mission.

Démarrer un recrutement Je suis candidat

Inference

Termes liés

LLM

Machine Learning

Adresse IP

AI Act

API

Back-end

Prêts à trouver le maillon manquant de votre équipe ?