Retour au conseil
Évaluation de prompts et d'agents par Open ecosystem

Promptfoo & DeepEval

Harness d'évaluation compatibles CI pour prompts, agents et pipelines RAG.

01 De quoi s'agit-il ?

Promptfoo et DeepEval sont les harness d'évaluation open source pour prompts, agents et pipelines RAG. Ils supportent évaluateurs déterministes et LLM-as-judge, s'exécutent en CI comme n'importe quelle suite de tests et produisent des rapports structurés qui rendent la régression visible avant que le code n'arrive en production.

02 Pourquoi l'implémenter ?

  • S'exécutent comme une suite de tests, natifs en CI/CD
  • Évaluateurs intégrés : factualité, sûreté, latence, coût
  • LLM-as-judge avec le modèle de votre choix
  • Comparaison côte à côte de prompts, modèles et configurations
  • Open source, self-hostable, pas d'enfermement fournisseur

03 Comment je vous aide

Je conçois des harness d'évaluation pour vos pipelines d'agents et RAG, je les câble en CI, je définis des évaluateurs personnalisés pour votre domaine et je pose les portes de régression qui bloquent les mauvaises modifications avant la production.

04 Livrables attendus

  • Harness d'évaluation pour prompts, agents et RAG
  • Intégration CI avec portes de régression
  • Évaluateurs personnalisés pour votre domaine
  • Tableaux de bord de reporting et cadence de revue
  • Montée en compétence des équipes et modèle opérationnel
Prêt à implémenter ? Appel de cadrage initial, typiquement 30 minutes, sans engagement.
contact@jeremycanale.com