05 — Roadmap

État actuel, prochaines étapes, et ce qui est explicitement hors-scope.

V0.1 — MVP web (déployé)

Statut : déployable. Dossier dist/ autonome prêt pour Vercel / Netlify / Cloudflare Pages (cf. DEPLOY.md).

Landing page de présentation scientifique
Segmentation automatique du prompt (algorithme heuristique)
Édition manuelle des segments détectés
Saisie des scénarios de test
Configuration des critères 3 axes
Moteur d'ablation branché sur l'API Claude (clé fournie par l'utilisateur)
Calcul des deltas par axe (structurel, comportemental, sémantique)
Visualisation : graphique de variance + cartes 3-axes + synthèse
Stockage local de la clé API + résultats
Backoff exponentiel sur 429 / 5xx / 529 (3 tentatives, respect du retry-after)
Sauvegarde incrémentale par appel → reprise sans re-jouer ce qui a réussi
Messages d'erreur Anthropic traduits en français lisible (401, 429, 529, …)
Validation des inputs (prompt vide, scénarios vides, prompt > 10k tokens)
Confirmation explicite si l'analyse dépasse 150 appels API
Estimation de coût $ par modèle dans l'UI
CSP restrictive + headers HTTPS via vercel.json / netlify.toml / _headers
Meta Open Graph + Twitter Card + favicon SVG
Section privacy explicite + FAQ + parcours "comment ça marche" en 4 étapes
Responsive 360 px → 1920 px, contraste WCAG AA
Page 404 brandée
Documentation complète (rationale, méthodologie, architecture, interprétation, roadmap + 3 documents d'agent)

Restent volontairement hors-scope V0.1 (déplacés en V0.2 ci-dessous) : export JSON, import d'analyse passée, drill-down par scénario, mode ablation combinée, contre-productivité signée.

V0.2 — Robustesse (court terme)

Améliorations incrémentales sans changement d'architecture.

Export JSON des résultats (pour archivage et comparaison)
Import d'une analyse précédente
Drill-down outputs inline par scénario dans les cartes segment (comparatif baseline vs ablation, panneau repliable, mobile-first)
Calibration affinée des seuils de verdict sur un corpus plus large que Reachy (observation 2026-05-26 : sur Haiku 4.5, 11 segments Reachy sur 12 sont classés "faible" car les outputs sont déjà très convergents ; normalisation par modèle ou par variance globale du run à envisager — cf. 00-AGENT-SMOKE-TEST.md §B.2)
Mode "ablation combinée" : retirer 2 segments à la fois pour détecter les coalitions
Détection de contre-productivité (delta signé, pas absolu)
Optimisation de l'image OG (passer < 200 KB)
Compactage des appels (concurrence contrôlée à 3-5 req/s respectueuse d'Anthropic)
Extraction du <script> inline vers dist/app.js pour retirer 'unsafe-inline' de script-src et revenir à une CSP strict (V0.1 a dû conserver 'unsafe-inline' après la régression du 2026-05-26 sur Vercel — cf. 00-AGENT-SMOKE-TEST.md §B.6). L'opération est sans risque tant qu'aucun innerHTML avec user-content n'est introduit dans le HTML.

V1 — Moteur Python de référence

Le moteur JS du navigateur a deux limites : performance sur de gros batches, et qualité de l'embedding sémantique (TF-IDF local en V0).

engine/preatorlabs.py — moteur Python autonome
Embeddings réels via Voyage AI (recommandé) ou sentence-transformers local
CLI preatorlabs analyze --prompt prompt.txt --scenarios scn.json
Sortie JSON normalisée, compatible avec le format de la web app
Tests unitaires + tests d'intégration sur le corpus Reachy
Distribution PyPI

V2 — Multi-tours et fonctionnalités avancées

Scénarios à historique multi-tours (testable sur des prompts avec mémoire conversationnelle)
Mode A pour l'axe sémantique : corpus de référence fourni par l'utilisateur
Pondération configurable des 3 axes
Répétition n=3 par ablation pour absorber la stochasticité résiduelle
Analyse comparative entre deux versions d'un même prompt (diff sémantique)

V3 — Multi-LLM

Adaptateur OpenAI (GPT-4, GPT-4o, o3)
Adaptateur Gemini
Adaptateur Mistral / Llama via providers
Interface unifiée LLMAdapter
Vue comparative : même prompt, plusieurs LLMs, rapport croisé
Signal complémentaire logprobs quand l'API l'expose (OpenAI partiellement)

V4 — Communauté et écosystème

Bibliothèque de prompts de référence (commons benchmarkés)
Plugin VSCode / Cursor pour analyser un prompt depuis l'éditeur
API REST hébergée (optionnelle, pour intégration en CI/CD)
Documentation traduite (EN minimum)

Hors-scope volontaire

Ces directions ont été envisagées et explicitement écartées :

❌ LLM-as-judge — pas d'évaluation interprétative par un LLM tiers. La rigueur de la méthode dépend de cette exclusion. Voir 01-SCIENTIFIC-RATIONALE.md §3.

❌ Shapley values complètes — coût combinatoire intenable. Possible en option avancée V4+ avec sampling approximé (Monte-Carlo Shapley), pas en chemin principal.

❌ Fine-tuning ou apprentissage — preatorlabs est un outil d'analyse, pas de modification automatique. Il aide l'humain à décider, il ne décide pas. Cette frontière est délibérée.

❌ Génération automatique de prompts — hors-scope. Beaucoup d'outils existent déjà pour ça. preatorlabs résout un problème en aval : comprendre un prompt existant.

Pour les contributeurs futurs

Si tu reprends le projet, voici les questions à se poser avant chaque PR :

Est-ce que ça préserve l'objectivité ? Aucune métrique interprétative.
Est-ce que ça préserve la frugalité ? Pas de débordement combinatoire.
Est-ce que ça préserve la lisibilité ? Un non-expert doit pouvoir lire le rapport.
Est-ce que c'est documenté ? Toute méthode ajoutée a sa section dans 02-METHODOLOGY.md.
Est-ce que c'est falsifiable ? Un verdict produit par preatorlabs doit pouvoir être contredit par un test indépendant.

Si l'une de ces réponses est non, la modification doit être justifiée explicitement, sinon refusée.