- 1) Définir les objectifs (what good looks like)
- 2) Écrire des scénarios ciblés
- 3) Scorer avec une rubric
- 4) Classer les erreurs (taxonomie)
- 5) Itérer (data / prompts / policies)
A simple, repeatable evaluation loop: scenarios → rubric → error taxonomy → iteration. A simple, repeatable evaluation loop: scenarios → rubric → error taxonomy → iteration.