05 — Roadmap
État actuel, prochaines étapes, et ce qui est explicitement hors-scope.
V0.1 — MVP web (déployé)
Statut : déployable. Dossier dist/ autonome prêt pour Vercel / Netlify / Cloudflare Pages (cf. DEPLOY.md).
- Landing page de présentation scientifique
- Segmentation automatique du prompt (algorithme heuristique)
- Édition manuelle des segments détectés
- Saisie des scénarios de test
- Configuration des critères 3 axes
- Moteur d'ablation branché sur l'API Claude (clé fournie par l'utilisateur)
- Calcul des deltas par axe (structurel, comportemental, sémantique)
- Visualisation : graphique de variance + cartes 3-axes + synthèse
- Stockage local de la clé API + résultats
- Backoff exponentiel sur 429 / 5xx / 529 (3 tentatives, respect du
retry-after) - Sauvegarde incrémentale par appel → reprise sans re-jouer ce qui a réussi
- Messages d'erreur Anthropic traduits en français lisible (401, 429, 529, …)
- Validation des inputs (prompt vide, scénarios vides, prompt > 10k tokens)
- Confirmation explicite si l'analyse dépasse 150 appels API
- Estimation de coût $ par modèle dans l'UI
- CSP restrictive + headers HTTPS via
vercel.json/netlify.toml/_headers - Meta Open Graph + Twitter Card + favicon SVG
- Section privacy explicite + FAQ + parcours "comment ça marche" en 4 étapes
- Responsive 360 px → 1920 px, contraste WCAG AA
- Page 404 brandée
- Documentation complète (rationale, méthodologie, architecture, interprétation, roadmap + 3 documents d'agent)
Restent volontairement hors-scope V0.1 (déplacés en V0.2 ci-dessous) : export JSON, import d'analyse passée, drill-down par scénario, mode ablation combinée, contre-productivité signée.
V0.2 — Robustesse (court terme)
Améliorations incrémentales sans changement d'architecture.
- Export JSON des résultats (pour archivage et comparaison)
- Import d'une analyse précédente
- Drill-down outputs inline par scénario dans les cartes segment (comparatif baseline vs ablation, panneau repliable, mobile-first)
- Calibration affinée des seuils de verdict sur un corpus plus large que Reachy (observation 2026-05-26 : sur Haiku 4.5, 11 segments Reachy sur 12 sont classés "faible" car les outputs sont déjà très convergents ; normalisation par modèle ou par variance globale du run à envisager — cf.
00-AGENT-SMOKE-TEST.md§B.2) - Mode "ablation combinée" : retirer 2 segments à la fois pour détecter les coalitions
- Détection de contre-productivité (delta signé, pas absolu)
- Optimisation de l'image OG (passer < 200 KB)
- Compactage des appels (concurrence contrôlée à 3-5 req/s respectueuse d'Anthropic)
- Extraction du
<script>inline versdist/app.jspour retirer'unsafe-inline'descript-srcet revenir à une CSP strict (V0.1 a dû conserver'unsafe-inline'après la régression du 2026-05-26 sur Vercel — cf.00-AGENT-SMOKE-TEST.md§B.6). L'opération est sans risque tant qu'aucuninnerHTMLavec user-content n'est introduit dans le HTML.
V1 — Moteur Python de référence
Le moteur JS du navigateur a deux limites : performance sur de gros batches, et qualité de l'embedding sémantique (TF-IDF local en V0).
-
engine/preatorlabs.py— moteur Python autonome - Embeddings réels via Voyage AI (recommandé) ou sentence-transformers local
- CLI
preatorlabs analyze --prompt prompt.txt --scenarios scn.json - Sortie JSON normalisée, compatible avec le format de la web app
- Tests unitaires + tests d'intégration sur le corpus Reachy
- Distribution PyPI
V2 — Multi-tours et fonctionnalités avancées
- Scénarios à historique multi-tours (testable sur des prompts avec mémoire conversationnelle)
- Mode A pour l'axe sémantique : corpus de référence fourni par l'utilisateur
- Pondération configurable des 3 axes
- Répétition n=3 par ablation pour absorber la stochasticité résiduelle
- Analyse comparative entre deux versions d'un même prompt (diff sémantique)
V3 — Multi-LLM
- Adaptateur OpenAI (GPT-4, GPT-4o, o3)
- Adaptateur Gemini
- Adaptateur Mistral / Llama via providers
- Interface unifiée
LLMAdapter - Vue comparative : même prompt, plusieurs LLMs, rapport croisé
- Signal complémentaire logprobs quand l'API l'expose (OpenAI partiellement)
V4 — Communauté et écosystème
- Bibliothèque de prompts de référence (commons benchmarkés)
- Plugin VSCode / Cursor pour analyser un prompt depuis l'éditeur
- API REST hébergée (optionnelle, pour intégration en CI/CD)
- Documentation traduite (EN minimum)
Hors-scope volontaire
Ces directions ont été envisagées et explicitement écartées :
❌ LLM-as-judge — pas d'évaluation interprétative par un LLM tiers. La rigueur de la méthode dépend de cette exclusion. Voir 01-SCIENTIFIC-RATIONALE.md §3.
❌ Shapley values complètes — coût combinatoire intenable. Possible en option avancée V4+ avec sampling approximé (Monte-Carlo Shapley), pas en chemin principal.
❌ Fine-tuning ou apprentissage — preatorlabs est un outil d'analyse, pas de modification automatique. Il aide l'humain à décider, il ne décide pas. Cette frontière est délibérée.
❌ Génération automatique de prompts — hors-scope. Beaucoup d'outils existent déjà pour ça. preatorlabs résout un problème en aval : comprendre un prompt existant.
Pour les contributeurs futurs
Si tu reprends le projet, voici les questions à se poser avant chaque PR :
- Est-ce que ça préserve l'objectivité ? Aucune métrique interprétative.
- Est-ce que ça préserve la frugalité ? Pas de débordement combinatoire.
- Est-ce que ça préserve la lisibilité ? Un non-expert doit pouvoir lire le rapport.
- Est-ce que c'est documenté ? Toute méthode ajoutée a sa section dans
02-METHODOLOGY.md. - Est-ce que c'est falsifiable ? Un verdict produit par preatorlabs doit pouvoir être contredit par un test indépendant.
Si l'une de ces réponses est non, la modification doit être justifiée explicitement, sinon refusée.