RLHF
Reinforcement Learning from Human Feedback
Auch bekannt als:
Reinforcement Learning from Human Feedback
RLHF ist eine Schluesseltechnik zur Ausrichtung von LLMs auf hilfreiche und sichere Antworten.
Prozess
- Modell generiert mehrere Antworten
- Menschen bewerten die Antworten
- Reward Model wird trainiert
- Policy wird optimiert