REDREAMER Cognitive AICognitive AI
REASONING • RUBRICS • FAILURE MODES REASONING • RUBRICS • FAILURE MODES

Évaluer le raisonnement d’un LLMEvaluating LLM Reasoning

A simple, repeatable evaluation loop: scenarios → rubric → error taxonomy → iteration. A simple, repeatable evaluation loop: scenarios → rubric → error taxonomy → iteration.

Une boucle simpleA simple loop

  • 1) Définir les objectifs (what good looks like)
  • 2) Écrire des scénarios ciblés
  • 3) Scorer avec une rubric
  • 4) Classer les erreurs (taxonomie)
  • 5) Itérer (data / prompts / policies)
  • 1) Define goals (what good looks like)
  • 2) Write targeted scenarios
  • 3) Score with a rubric
  • 4) Classify errors (taxonomy)
  • 5) Iterate (data / prompts / policies)

Erreurs fréquentesCommon errors

  • Fausses prémisses
  • Ambiguïté d’intention
  • Sur‑confiance
  • Sur‑abstraction
  • Manque de vérification
  • False premises
  • Intent ambiguity
  • Overconfidence
  • Over-abstraction
  • Missing verification