Aller au contenu principal
Bluecoders
← Glossaire de la tech

RLHF

TechnoProblématique

Le RLHF (Reinforcement Learning from Human Feedback, ou « apprentissage par renforcement à partir de retours humains ») est une technique d'alignement des LLM : après le pré-entraînement, on affine le modèle à partir de…

Le RLHF (Reinforcement Learning from Human Feedback, ou « apprentissage par renforcement à partir de retours humains ») est une technique d'alignement des LLM : après le pré-entraînement, on affine le modèle à partir de comparaisons faites par des humains entre plusieurs réponses possibles, pour qu'il adopte les comportements souhaités (utile, honnête, inoffensif).

Le processus comporte typiquement trois étapes : un fine-tuning supervisé sur des démonstrations humaines, l'entraînement d'un reward model qui apprend les préférences humaines, puis l'optimisation du LLM contre ce reward model par PPO ou DPO.

Le RLHF est ce qui a rendu ChatGPT utilisable et a fait passer les LLM du laboratoire au grand public. Anthropic en a proposé une variante avec la Constitutional AI (RLAIF), où le feedback est en partie produit par d'autres modèles selon des principes explicites.

Prêts à trouver le maillon manquant de votre équipe ?

Échangeons sur vos besoins de recrutement. Une équipe vous répond rapidement pour qualifier votre besoin et lancer la mission.