Guardrails
Les guardrails (garde-fous) d'une application IA sont l'ensemble des contrôles mis en place autour d'un modèle pour borner son comportement : filtrage des entrées (injection de prompt, contenu interdit), validation des…
Les guardrails (garde-fous) d'une application IA sont l'ensemble des contrôles mis en place autour d'un modèle pour borner son comportement : filtrage des entrées (injection de prompt, contenu interdit), validation des sorties (toxicité, fuite d'information, format attendu), limitation des outils accessibles à un agent et politiques d'escalade vers un humain.
Ils sont indispensables en production car les LLM ne sont pas déterministes : un système sans guardrails peut halluciner, divulguer des données sensibles ou être détourné par un utilisateur malveillant.
Des frameworks dédiés (Guardrails AI, NeMo Guardrails, AWS Bedrock Guardrails, Lakera, modération d'OpenAI / Anthropic) facilitent leur mise en œuvre.
