Inference
En machine learning, l'inférence (en anglais inference) désigne l'étape où un modèle entraîné est utilisé pour faire des prédictions sur de nouvelles données, par opposition à la phase d'entraînement.
En machine learning, l'inférence (en anglais inference) désigne l'étape où un modèle entraîné est utilisé pour faire des prédictions sur de nouvelles données, par opposition à la phase d'entraînement.
Dans le cas d'un LLM, une inférence est un appel qui prend un prompt et renvoie une complétion. Elle a un coût en compute (souvent exprimé en tokens), une latence (temps avant le premier token, débit de tokens par seconde) et un coût financier qui peut devenir significatif à l'échelle.
L'optimisation de l'inférence (quantization, batching, KV cache, decoding spéculatif, distillation) est devenue un domaine d'ingénierie à part entière, avec des moteurs spécialisés (vLLM, TensorRT-LLM, llama.cpp) et des fournisseurs dédiés (Together AI, Fireworks, Groq).
