OutcomeOutcome
Rubric + test suite + baseline scoring + plan d’amélioration priorisé.Rubric + test suite + baseline scoring + prioritized improvement plan.
Évaluer ce qui compte : cohérence, intention, robustesse, et fiabilité des décisions. Avec des rubrics clairs et des scénarios ciblés. Evaluate what matters: coherence, intent, robustness, decision reliability — using clear rubrics and targeted scenarios.
Rubric + test suite + baseline scoring + plan d’amélioration priorisé.Rubric + test suite + baseline scoring + prioritized improvement plan.
Scénarios → scoring → analyse d’erreurs → itération.Scenarios → scoring → error analysis → iteration.
Des exemples “gold” + des contre‑exemples pour stabiliser le jugement.Gold examples + counterexamples to stabilize judgment.
critères + niveaux + exemples.criteria + levels + examples.
cas réalistes, edge cases, stress tests.realistic cases, edge cases, stress tests.
cartographie des erreurs + priorités.error map + priorities.
scores et tendances, reproductibles.scores and trends, reproducible.
LLM evaluator / LLM evaluation specialistLLM evaluator / LLM evaluation specialist
AI trainer evaluation rubricsAI trainer evaluation rubrics
reasoning evaluation rubricreasoning evaluation rubric
red teaming LLM evaluationred teaming LLM evaluation
Questions fréquentes — formulées comme des requêtes Google. Common questions — phrased like Google queries.