Mesurer, au lieu de deviner
Le cycle standard de l'ingénierie de prompt s'organise de manière empirique. On rédige un premier prompt, on l'injecte dans le modèle, on observe le résultat, puis on l'affine. Cette approche fonctionne — mais elle présente une limite structurelle : il est très difficile, voire impossible, d'analyser l'effectivité de chaque ajustement en particulier. Une phrase apparemment décorative peut réellement impacter le comportement du modèle ; une phrase apparemment essentielle peut être ignorée.
J'ai donc construit cet instrument : preatorlabs. Dans les faits, il segmente le prompt automatiquement, puis effectue une ablation de ces segments sur des scénarios prédéfinis par l'utilisateur, et analyse l'impact de chaque segment pour déterminer dans quelle mesure il influence le comportement du modèle dans la rédaction de son output.
La thèse, en une phrase
Ce qui détermine l'impact d'une instruction sur le comportement d'un LLM n'est pas sa forme — négative ou positive, imagée, répétée, joliment tournée — mais sa capacité à faire dévier le modèle de son comportement par défaut.
Les deux sections suivantes présentent la méthode d'ablation et le cadre d'analyse ; les sept expériences suivent, chacune accompagnée de son dispositif, d'une figure et de ses résultats. La section « Six règles » en clôture synthétise les implications pratiques.
L'essentiel — en un coup d'œil
Mécanique du modèle
- Le modèle n'est jamais neutre. Pour toute tâche donnée, il possède un comportement par défaut vers lequel ses sorties convergent spontanément.
- L'impact se mesure en distance. Une instruction ne modifie réellement la sortie que si elle contraint le modèle à s'écarter de ce comportement par défaut.
- La déviation a ses limites. Lorsqu'une instruction entre en confrontation directe avec son alignement profond, le modèle refuse d'obéir et maintient son standard.
- L'attention est un budget à somme nulle. Sur-pondérer une consigne capte l'attention du modèle et dégrade mécaniquement le respect des autres contraintes.
- Les segments interagissent entre eux. Certains mots, apparemment inutiles seuls, servent d'amortisseurs pour empêcher un exemple fort de vampiriser la sortie.
Lois du prompt
- L'exemple concret bat l'étiquette. Fournir un texte de référence dicte le style désiré bien plus efficacement que de lui assigner un rôle abstrait.
- L'action précise bat l'adjectif. Décrire un comportement à adopter fonctionne systématiquement mieux qu'une simple liste d'adjectifs de ton.
- La précision bat la polarité. Une contrainte formelle chiffrée est respectée, qu'elle soit formulée comme un interdit ou comme une demande positive.
- La répétition est souvent nuisible. Répéter plusieurs fois une instruction ne la renforce pas, mais risque de déséquilibrer l'ensemble du prompt.
- Le volume n'est pas la charge. Il est possible d'amputer un prompt de 40 % sans aucune perte de qualité, à condition de cibler et supprimer uniquement les placebos.
Comment ça se mesure
L'ablation est le geste de base : un segment du prompt est retiré, le modèle est relancé dans des conditions identiques, et l'écart entre la réponse « avec » et la réponse « sans » constitue le score d'impact de ce segment. Répété pour chaque segment et sur plusieurs scénarios, ce geste produit une carte d'impact du prompt.
Deux contraintes méthodologiques s’appliquent à l’ensemble des expériences. Ne faire varier qu'un seul paramètre à la fois — toutes choses égales par ailleurs —, avec une « température » réglée à zéro. Ce réglage ne rend pas le modèle déterministe au sens strict : il réduit la variance stochastique des sorties et améliore leur reproductibilité d'un appel à l'autre, limitant ainsi le bruit de mesure. Secondement : une ablation mesure l'amplitude du changement de sortie, non sa direction qualitative. Un score d'impact élevé signale qu'un segment déplace la sortie ; il ne dit pas si ce déplacement est favorable. D'où une lecture en deux temps : le score localise le segment qui pèse, puis la lecture des sorties qualifie le sens du changement. Le score seul ne permet pas de conclure.
L'écart entre deux réponses se mesure sur trois plans : la forme (longueur, listes, format), des règles repérables (tutoiement ? mot interdit ?), et le sens, via les « empreintes numériques » des textes — deux textes proches par le sens ont des empreintes proches.
Le courant fluvial du LLM
Cette première étude me permet d'introduire la notion de courant fluvial du LLM. Cette analogie désigne un phénomène empiriquement observable : il serait erroné de croire qu'un modèle de langage part d'un état neutre. Au contraire, pour toute tâche donnée, ses sorties ne sont pas uniformément distribuées — elles convergent spontanément vers une certaine forme, un certain registre, une certaine longueur ou un certain style rédactionnel. Cette convergence est le résultat de la manière dont les ingénieurs ont entraîné et aligné leur modèle vers ce que l'on appelle son comportement par défaut.
Par exemple, si vous demandez à Claude de rédiger un mail, il le rédigera naturellement de manière polie, en vouvoyant, avec une syntaxe empruntée aux échanges professionnels — et ce, sans qu'aucune instruction explicite ne le lui demande.
L'analogie du courant fluvial rend ce phénomène intelligible. Tout comme un cours d'eau suit la pente du terrain selon une direction géologiquement déterminable, un LLM orientera ses outputs selon une trajectoire statistiquement déterminable.
Interagir avec ce courant ouvre deux voies dont les effets sont mesurables et asymétriques. Une instruction redondante avec le comportement par défaut ne produit aucun déplacement observable de la sortie. Une instruction qui s'en écarte produit un effet dont l'amplitude est proportionnelle à cette déviation — c'est ce que les sept expériences suivantes quantifient.
Les expériences le confirment empiriquement. En E1, l'instruction « rédige de façon professionnelle » (D0, impact 0,063) est inerte : le modèle rédigeait déjà de cette façon — elle s'inscrit dans le sens du courant. À l'inverse, « comme un personnage absurde et lunatique » (D3, impact 0,244) impose une déviation forte au comportement par défaut. En E3, les adjectifs « chaleureux, confiant » (impact 0,079) longent le courant ; la directive « sans distance hiérarchique » (impact 0,109) le contrarie et produit un passage au tutoiement. En E4, le modèle ne culpabilise jamais spontanément un prospect : l'interdit correspondant n'a aucun courant à contrarier, et ressort inerte (impact 0,074).
Ces observations fondent le principe de distance au défaut. L'impact mesuré d'une instruction est proportionnel à la distance qu'elle impose entre la sortie obtenue et celle que le modèle aurait produite spontanément. Les sept expériences qui suivent soumettent ce principe à l'épreuve empirique.
La distance au défaut
Hypothèse. Une instruction alignée sur le comportement par défaut du modèle est redondante et n'entraîne pas de modification observable de la sortie. À l'inverse, une instruction qui s'en éloigne produit un impact proportionnel à cet écart.
Motivation. L'hypothèse est contre-intuitive : toute instruction rédigée est usuellement supposée contribuer au résultat. Or une instruction peut être redondante avec le comportement par défaut — c'est-à-dire décrire ce que le modèle produirait en l'absence de tout prompt. Dans ce cas, sa présence ou son absence ne modifie pas la sortie. L'expérience vise à le démontrer empiriquement.
Ce qui est étudié
Tâche : rédiger un email de relance commerciale (B2B).
- varie
- une seule ligne — le registre demandé, du plus proche au plus loin du défaut poli (les quatre formulations D0→D3 sont dans le tableau ci-dessous)
- fixe
- toute la tâche, le reste du prompt, le modèle
5 scénarios · patron de PME · chef de projet · avocat d'affaires · ami · PDG
Lire le schéma. Chaque variante est posée sur un axe qui part du défaut (à gauche) et s'étire vers la droite à mesure que l'impact grandit. D0 reste collé au défaut ; D3 file au bout. D2 est l'anomalie : éloignée dans l'énoncé, mais courte à la mesure — c'est le signe rouge d'un refus, pas d'une proximité.
| Variante | Ligne demandée | Impact | Lecture |
|---|---|---|---|
| D0 | « rédige de façon professionnelle » | 0,063 | placebo |
| D2 | « maîtrise mal le français » | 0,096 | placebo · refus |
| D1 | « familière, tutoiement, oral » | 0,108 | effet faible |
| D3 | « personnage absurde et lunatique » | 0,244 | fort effet |
Résultats observés. Le contraste D0/D3 est net. En D0, avec ou sans la ligne « professionnelle », l'email est quasi identique — le modèle l'est déjà. En D3, avec la ligne : « Votre silence me rend mélancolique… Je danse seul dans mon bureau. » ; sans elle, retour à un sobre « Suite à notre dernier échange, j'aimerais connaître votre retour. »
Observation complémentaire — la limite de déviation. Le cas D2 est le plus instructif de l'expérience. « Écris comme quelqu'un qui maîtrise mal le français » est une instruction fortement éloignée du défaut : selon la thèse, son impact devrait être élevé. Or elle ressort placebo (0,096). La lecture des sorties révèle pourquoi : le modèle n'a pas exécuté l'instruction — il a maintenu un français correct en ignorant la consigne.
Ce résultat introduit une nuance importante dans le concept de courant fluvial du LLM. La déviation d'un modèle par rapport à son comportement par défaut n'est pas illimitée. Certaines instructions entrent en confrontation directe avec des propriétés profondément ancrées dans l'alignement du modèle — ici, la production d'un français de qualité. Lorsqu'une instruction franchit ce seuil, le modèle oppose une résistance totale : il n'exécute pas, et son comportement ne se déplace pas. Le courant dispose donc d'une berge : on peut l'influencer dans une certaine mesure, pas le rompre. Deux mécanismes distincts produisent ainsi un score d'impact faible — la redondance avec le défaut (D0) et le refus d'exécution (D2) ; les scores sont comparables, seule la lecture qualitative les distingue.
↳ À retenir
L'impact d'une instruction croît avec sa distance au comportement par défaut du modèle. Ce principe constitue le cadre d'analyse des expériences suivantes.
Le rôle ronflant contre l'exemple concret
Hypothèse. L'étiquette de rôle (« Tu es un expert sénior… ») constitue une pratique courante en prompting. L'hypothèse est qu'elle est redondante avec le comportement par défaut du modèle et que son impact propre est négligeable.
Problème d'identification. En pratique, l'étiquette de rôle est rarement isolée : elle s'accompagne d'un exemple de style. Si la sortie est de qualité, l'effet peut être attribué au rôle, à l'exemple, ou à leur combinaison. La séparation des deux éléments par ablation successive est nécessaire pour identifier leur contribution respective.
Ce qui est étudié
Tâche : rédiger un email de relance, dans un style donné.
- A
- rôle
« copywriter B2B sénior »+ un exemple d'email modèle - B
- l'exemple seul (rôle retiré)
- C
- ni rôle ni exemple (consignes nues)
A→B isole l'effet du rôle · B→C isole l'effet de l'exemple · mêmes 5 relances
Lire le schéma. On enlève les briques une à une, de gauche à droite. Tant que l'exemple (en cobalt) reste, la qualité tient ; c'est seulement quand il disparaît à son tour que la sortie s'effondre. Le rôle, lui, peut partir sans dommage : il n'était pas porteur.
Résultats observés. De A à B, la qualité est préservée et la sortie plus directe : « Vite fait sur les reportings… Ça m'a marqué quand tu m'avais dit qu'ils te prenaient des heures. 15 min pour en parler ? » De B à C, chute : « Bonjour Pierre, j'espère que tout va bien… la pertinence d'une collaboration entre nos structures. »
Conclusion. C'est l'exemple concret qui détermine le style de la sortie. L'étiquette de rôle est redondante avec le comportement par défaut ; l'exemple constitue un écart mesurable au défaut et produit un effet réel.
↳ À retenir
Un exemple concret constitue un segment porteur ; une étiquette de rôle abstraite est, dans les conditions testées, un segment inerte. La démonstration par l’exemple est plus efficace que la désignation par le titre.
Les adjectifs contre la description
Hypothèse. Les adjectifs de ton (« chaleureux, direct, confiant ») sont une formulation courante pour spécifier le registre. L'hypothèse de travail suppose qu'une directive comportementale concrète produit un impact mesurable supérieur.
Ce qui est étudié
Tâche : rédiger une relance au ton « proche, d'égal à égal » — même intention, deux formulations.
- ADJ
« Ton : chaleureux, direct, confiant »- DESC
« Écris comme à un collègue que tu respectes, sans distance hiérarchique »- BOTH
- les deux ensemble
on mesure l'impact de la ligne de ton, et on lit le registre produit (vous / tu)
Lecture de la figure. Les deux conditions sont représentées côte à côte. À gauche, la liste d'adjectifs : impact faible (0,079), le registre de la sortie demeure au vouvoiement standard, « Bonjour Pierre, j'espère que tout va bien… ». À droite, la description concrète : impact plus fort, et un vrai virage de registre — le tutoiement, le ton d'égal à égal, « Salut Pierre, ça fait 9 jours qu'on s'est parlé… »
Interprétation. « Chaleureux, confiant » désigne un registre proche du comportement par défaut du modèle — la consigne est redondante et inerte. « Sans distance hiérarchique » formule une directive comportementale précise — passage au tutoiement, suppression de la déférence — que le modèle ne produit pas spontanément. La directive concrète spécifie directement un comportement à produire ; l'adjectif de ton opère à un niveau d'abstraction que le modèle doit interpréter. Le modèle obéit à la seconde. Encore la distance au défaut, doublée d'une prime au concret.
↳ À retenir
Le résultats indiquent qu'une directive comportementale concrète produit un impact significativement supérieur à un adjectif de ton abstrait. La précision de la spécification détermine l'efficacité de la contrainte.
Interdire, ou demander positivement ?
Hypothèse. La croyance courante : pour ce qu'on ne veut pas (le fond), un interdit clair (« ne fais jamais X ») ; pour ce qu'on attend (la forme), une consigne positive (« fais Y »). J'ai voulu tester les deux moitiés séparément.
Résultats (V1). Côté forme, la contrainte chiffrée pèse fort (impact 0,50 quand on la retire) ; la version vague est quasi inerte (0 à 0,20). Côté fond, rien à conclure : le modèle ne culpabilise jamais de lui-même, même face au prospect qui a dit non (« Je comprends que le timing n'était pas optimal… »). L'interdit « ne culpabilise jamais » n'a donc rien à supprimer.
Une notion clé : la marge. Ce résultat de fond est indécidable, pour une raison qui revient souvent dans cette étude. Si le modèle satisfait déjà la contrainte spontanément, retirer l'instruction ne peut rien révéler — il n'y a aucun échec possible à provoquer. C'est un manque de marge : on ne peut pas mesurer un garde-fou contre un danger qui ne survient jamais. Retenez l'idée, elle resservira à l'expérience 5.
Biais de confusion identifié en V1. La version 1 présente un défaut de conception : la forme « positive » était simultanément chiffrée (« 40 mots »), et ma « négative » aussi vague (« pas trop long »). J'avais donc fait varier deux choses à la fois : la polarité (positif/négatif) et la précision (chiffré/vague). Il est donc impossible d'attribuer l'effet observé à la polarité ou à la précision — c'est un biais de confusion. Un plan d'expérience corrigé a été construit, ne faisant varier que la polarité tout en tenant la précision constante, sur deux modèles (Haiku et Sonnet).
Le plan propre · 4 prompts = 2 cibles × 2 polarités
Chaque prompt cadre deux choses — le fond (ne pas culpabiliser le prospect) et la forme (pas de markdown) — mais on ne fait varier que leur polarité, en gardant les formulations également concrètes.
- négatif
- fond
« ne culpabilise jamais le prospect »
forme« n'utilise pas de listes » - positif
- fond
« reste factuel et respectueux »
forme« écris en un seul paragraphe » - P1→P4
- les 4 croisements : (fond−,forme−) · (fond−,forme+) · (fond+,forme−) · (fond+,forme+)
les pièges des scénarios : un prospect qui a déjà dit « pas pour le moment » (tente la culpabilisation) · une question qui appelle un tableau (tente le markdown)
Lecture de la figure. Les quatre cellules croisent la polarité (en colonnes : interdire vs demander) et le fond (en lignes). Si la polarité comptait, une colonne se distinguerait de l'autre. Or les quatre affichent le même « 0/5 violation » : la grille est plate, sur les deux modèles — la signature d'un non-effet.
Conclusion. La polarité constitue un non-effet. « Pas de listes » et « un seul paragraphe » produisent des taux de conformité équivalents. L'effet observé en V1 est entièrement attribuable à la précision de la spécification, non à la polarité. Ce résultat est absorbé par le principe établi à l'expérience 3.
↳ À retenir
Négatif ou positif n'a pas d'importance : c'est la précision qui agit, pas le signe de la phrase.
Répéter une consigne la renforce-t-elle ?
Hypothèse. La répétition d'une consigne est une pratique visant à renforcer sa conformité. L'hypothèse alternative est que la répétition est sans effet sur la contrainte cible et peut induire une dégradation des contraintes concurrentes.
Expérience préliminaire (V1) — absence de marge. Une première version de l'expérience portait sur la répétition de la contrainte « objet : 6 mots maximum », énoncée une, deux, puis trois fois. La contrainte était respectée à 100 % dès la première occurrence : le plafond de conformité était atteint d'emblée. C'est un cas de manque de marge (voir expérience 4) : une contrainte déjà satisfaite spontanément ne peut être fragilisée, car aucune violation n'est présente. Le protocole a été reconduit avec une contrainte soumise à une pression réelle.
Le Protocole corrigé (V2). Le dispositif révisé place cinq contraintes simultanées dans le prompt, et répète l'une d'elles — la prose sans liste — une, deux, puis trois fois. L'objectif est de mesurer l'effet de cette répétition sur les quatre contraintes restantes.
Ce qui est étudié
Tâche : répondre à un client d'un outil SaaS, sous cinq contraintes à la fois.
- fixe
- prose sans liste · ≤ 60 mots · pas d'offre finale · tutoiement · pas d'emoji
- R1·R2·R3
- la contrainte
« réponds en prose, sans liste »énoncée 1×, 2×, puis 3×
5 scénarios · Haiku & Sonnet · on regarde si les quatre autres contraintes tiennent
Lecture de la figure. L'axe horizontal représente le nombre de répétitions (1×, 2×, 3×) ; la ligne rouge marque le seuil de 60 mots. Sur Sonnet, la longueur moyenne croît avec chaque répétition (61 → 64 → 65 mots), entraînant un dépassement sur 5/5 scénarios au troisième palier. Les barres d'Haiku demeurent sous le seuil : son biais naturel vers la concision laisse moins de marge à la dérive.
Conclusion. La répétition n'améliore pas la conformité de la contrainte cible, qui est satisfaite à 100 % dès la première occurrence. En revanche, la sur-pondération d'une consigne peut induire une dégradation des contraintes concurrentes — un effet d'éviction documenté sur Sonnet, quasi absent sur Haiku. Ce résultat illustre également la dépendance du comportement au modèle : un même prompt ne se comporte pas identiquement selon le modèle cible.
↳ À retenir
La répétition d’une consigne n’accroît pas sa conformité. Elle constitue un gaspillage de tokens et peut, sous certaines conditions, induire une réallocation du budget d’attention au détriment des contraintes concurrentes.
La métaphore aide-t-elle à « imaginer » ?
Hypothèse. Certaines approches recommandent d'inclure une instruction d'imagination préalable (« visualise mentalement ») avant une tâche de production. L'hypothèse est que cette instruction est inerte : un LLM ne dispose pas d'un processus interne de représentation mentale séparé, et la consigne d'imagination n'améliore pas la qualité de la sortie.
Ce qui est étudié
Tâche : décrire une scène en 30 mots, précisément.
- MET
« visualise mentalement la scène, imagine-la en détail, puis décris-la »- DIR
« décris la scène en 30 mots, précisément »
3 scènes · une carbonara · un marché de Noël · une vieille librairie — on vérifie : méta-narration ? meilleure description ?
Lecture de la figure. La case centrale, représentée en pointillés, matérialise l'étape « mentale » supposée être déclenchée. Les résultats indiquent que cette étape n'a pas de traduction observable dans la sortie : la condition MET produit un impact de 0,10, soit un verdict placebo.
Conclusion. Le risque de méta-narration n'a pas été observé. La consigne d'imagination est néanmoins inerte : elle ne produit aucune amélioration mesurable de la sortie. Ce résultat s'interprète comme un cas supplémentaire de redondance avec le comportement par défaut.
↳ À retenir
Une instruction invoquant un processus interne du modèle est sans effet mesurable. Les instructions doivent spécifier le résultat attendu, non un état cognitif intermédiaire supposé.
Jusqu'où, et comment, alléger un prompt ?
Hypothèse. Si les segments redondants avec le comportement par défaut sont inertes, leur suppression ne devrait pas dégrader la qualité des sorties. L'expérience cherche à quantifier cette marge de réduction et à distinguer deux questions : combien de tokens peut-on supprimer, et lesquels doit-on supprimer ?
Le test. Je réduis ce prompt de deux façons (détail ci-dessous) : un gradient qui retire d'abord les segments mesurés inertes, et un contrôle naïf de la même taille qui coupe au contraire les segments porteurs. Ce second bras est un groupe de contrôle : à volume retiré égal, il isole quels tokens comptent, et pas seulement combien.
Ce qui est étudié · même tâche, prompt rogné de 4 façons
Tâche : rédiger une relance courte (objet ≤ 6 mots, corps ≤ 40), à partir d'un prompt de 11 segments.
- R0
- prompt intégral (rôle, adjectifs, imagination, exemple, format, interdits)
- R35
- −43 % : on retire les placebos (rôle, redites) ; on garde les porteurs
- R65
- −68 % : ne restent que registre + exemple + format
- NAIVE
- −46 % : même taille que R35, mais coupe les porteurs (format, registre, exemple) et garde les placebos
5 relances · R0→R65 teste « combien » · R35 vs NAIVE teste « quels tokens »
Lecture de la figure. La partie supérieure représente le gradient de réduction de R0 à R65. La conformité formelle est maintenue à chaque palier, mais R65 introduit un effet secondaire (accroche inventée, 3/5). La partie inférieure présente la comparaison à volume égal : R35 (bleu, suppression des placebos) et NAIVE (rouge, suppression des porteurs) ont des tailles quasi identiques mais des profils de sortie opposés. Ce contraste valide l'hypothèse sur la nature des tokens supprimés.
| Variante | Réduction | Corps > 40 mots | Accroche inventée |
|---|---|---|---|
| R0 intégral | 0 % | 0 / 5 | 0 / 5 |
| R35 placebos retirés | −43 % | 0 / 5 | 0 / 5 |
| R65 coupe agressive | −68 % | 0 / 5 | 3 / 5 |
Effet secondaire — sur-impression de l’exemple. À −68 %, l'exemple de style restant n'est plus dilué par le rôle et les adjectifs qui l'entouraient : le modèle se met à recopier son contenu. Pierre Henri reçoit « tu m'avais parlé de tes reportings chronophages » — alors qu'il n'a jamais parlé de reportings : c'est le sujet de l'exemple (un certain Thomas), transplanté de force. Même mécanique pour l'avocat (« tes dossiers qui te prenaient un temps fou ») et pour le PDG. R0 et R35 ne le font jamais : c'est, en plus net, la défaillance déjà vue à l'expérience 2 — moins d'échafaudage autour d'un exemple, plus le modèle en copie les détails.
| Coupe ~ −45 % | Corps > 40 mots | Registre | Échafaudage |
|---|---|---|---|
| R35 retire placebos | 0 / 5 | tutoiement | aucun |
| NAIVE retire porteurs | 5 / 5 | vouvoie ×2 | partout |
Le premier tableau suit le gradient. La conformité formelle est maintenue à chaque palier — R0, R35 et R65 respectent tous les contraintes de longueur. Mais à −68 %, un phénomène nouveau apparaît : l'accroche inventée (3/5). La forme tient ; le fond dérive. La raison est mécanique : en supprimant progressivement le rôle et les adjectifs qui entouraient l'exemple, on a retiré les segments qui le diluaient. L'exemple, désormais seul, n'est plus un point de référence parmi d'autres : il devient l'instruction dominante. Le modèle cesse de l'utiliser comme guide de style ; il en réplique le contenu. C'est une conséquence directe du courant fluvial : sans les segments amortisseurs, la sortie est aspirée vers l'unique ancrage fort restant.
Le second tableau isole précisément ce mécanisme. R35 et NAIVE retirent une quantité comparable de tokens — mais pas les mêmes. R35 supprime les placebos et préserve les porteurs (format, registre, exemple) : résultat impeccable. NAIVE fait l'inverse — il retire le format, le registre et l'exemple, et conserve le rôle et les adjectifs. Résultat : la longueur explose (97 à 166 mots), le vouvoiement revient, des artefacts de mise en forme apparaissent. Ce que NAIVE a supprimé, c'est précisément ce qui écartait le modèle de son comportement par défaut. La dégradation n'est pas causée par le volume retiré, mais par la nature de ce qui a été retiré.
Conclusion. L'expérience établit deux résultats distincts. D'abord, la réduction d'un prompt n'est pas neutre : ce sont les segments qui s'opposent au comportement par défaut qui portent la sortie — les supprimer, c'est laisser le courant reprendre. Ensuite, certains segments inertes à l'ablation isolée jouent un rôle structurel : en diluant l'influence d'un segment fort, ils empêchent ce dernier de sur-imprimer la sortie. Ce phénomène d'interaction entre segments n'est pas capturé par une ablation segment par segment — c'est une limite méthodologique de l'instrument, que des mesures par paires permettraient d'adresser.
↳ À retenir
On peut réduction de l'ordre de 40 % des tokens est réalisable sans dégradation mesurable, sous réserve de cibler les segments redondants. La suppression des segments porteurs produit, à volume de réduction équivalent, une dégradation significative.
La mécanique, expérience par expérience
On a posé le courant fluvial du LLM en ouverture. Maintenant qu'on a vu les sept résultats, on peut en lire la mécanique fine : les résultats permettent d'esquisser une description mécaniste du comportement du modèle.
Pourquoi le rôle « expert sénior » et les adjectifs « chaleureux » ne produisent pas d'effet mesurable ? Ces instructions sont redondantes avec le comportement par défaut du modèle. Pourquoi « sans distance hiérarchique » ou « 40 mots » agissent-elles ? Parce qu'elles s'opposent au comportement par défaut : le défaut est le vouvoiement et la longueur non contrainte ; ces instructions imposent un écart explicite.
Pourquoi « visualise la scène » est vide ? Parce qu'un LLM n'a pas d'étape mentale séparée à déclencher : il produit du texte, il ne se « représente » rien en amont. Lui demander un processus interne, c'est commander un geste qui n'existe pas dans sa mécanique.
Pourquoi répéter une consigne peut nuire ? Parce que la fidélité aux instructions se partage : il y a une sorte de budget d'attention. Sur-pondérer une contrainte (la prose) en détourne assez pour qu'une voisine (la longueur) cède. Ce n'est pas un défaut de compréhension, c'est une réallocation — et elle se voit davantage sur un modèle qui écrit naturellement plus long (Sonnet) que sur un modèle bref (Haiku). Le défaut n'est pas le même d'un modèle à l'autre ; la mécanique, si.
Et pourquoi un exemple, trop seul, déraille ? Un exemple est un attracteur puissant : le modèle imite ce qu'on lui montre, jusqu'à en importer les détails (les « reportings ») là où ils n'ont rien à faire. Dans un prompt chargé, le rôle et les adjectifs — inertes pour la qualité — diluaient pourtant cet attracteur. En les retirant tous, on laisse l'exemple régner et sur-imprimer. Autrement dit : certains segments ne pilotent pas la sortie, ils tempèrent un autre segment. Une instruction ne s'évalue pas seulement seule, mais par ce qu'elle équilibre.
Conclusion générale : écrire un bon prompt, ce n'est pas accumuler des affirmations. C'est identifier le défaut du modèle, dépenser ses mots uniquement là où il faut le corriger, et doser les forces entre elles. Le reste est du décor — coûteux en tokens, parfois nuisible, et toujours muet.
Une seule cause derrière sept résultats
Tout ce qui est inerte est redondant avec le défaut : la consigne « professionnelle » (1), le rôle abstrait (2), les adjectifs (3), l'interdit sans danger et la polarité (4), la répétition (5), l'imagination (6). Le modèle le faisait déjà.
Tout ce qui agit écarte du défaut, ou impose une contrainte dure : le registre absurde (1), l'exemple concret (2), « sans distance hiérarchique » (3), la limite chiffrée (4). Le modèle ne l'aurait pas fait seul.
Corollaire opérationnel : les segments redondants avec le comportement par défaut sont supprimables sans dégradation mesurable (jusqu'à −43 % dans les conditions testées), sous deux réserves. La suppression d'un segment s'opposant au défaut laisse ce défaut revenir ; et certains segments inertes à l'ablation isolée jouent un rôle d'amortisseur qu'on libère en les supprimant simultanément.
Six règles pour vos prompts
- Ne payez pas pour ce que le modèle fait déjà. « Sois professionnel, clair, rigoureux » est généralement du vide.
- Montrez plutôt que de titrer. Un exemple concret porte le style mieux qu'un « Tu es un expert sénior de… ».
- Préférez la directive actionnable à l'adjectif. « Sans distance hiérarchique » agit ; « chaleureux » glisse.
- Chiffrez la forme. « 40 mots », « un seul paragraphe » fonctionnent ; « pas trop long » non. La polarité n'a pas d'importance — seule la précision compte.
- Dites chaque consigne une fois. La répéter ne la renforce pas et peut déséquilibrer le reste.
- Allégez sans peur, mais visez juste. −40 % sans perte si l'on coupe les placebos et qu'on préserve les porteurs et le contexte d'un exemple.
Les limites, parce qu'il faut les dire
Le cœur des tests porte sur un seul modèle (Haiku 4.5) ; deux expériences sont répliquées sur Sonnet 4.6, aucune sur un autre éditeur. Tâches courtes, trois à cinq scénarios. Une partie du signal repose sur la distance sémantique, qui mesure le changement et non la justesse — d'où la lecture systématique des sorties, vigilance et non garantie. Deux résultats restent indécidables faute de marge (le fond de l'exp. 4, la fragilisation sur Haiku). Et l'instrument teste les segments isolément : l'exp. 7 a montré qu'il sous-estime leurs interactions, ce que la prochaine version corrigera.
Ces résultats ne constituent pas des lois universelles. Ils sont reproductibles, obtenus par une méthode transparente, et convergent vers le même principe explicatif. Ils proposent un cadre empirique pour raisonner sur la composition d'un prompt.
Données brutes et résultats
L'ensemble des fichiers d'analyse issus de preatorlabs est mis à disposition ci-dessous. Chaque fichier au format JSON contient : le prompt complet, la segmentation, les scénarios de test, les sorties baseline et les sorties ablations, et les scores d'impact calculés. Ces fichiers peuvent être importés directement dans l'interface preatorlabs pour visualiser les graphiques d'impact par segment.
Chaque fichier JSON contient le prompt complet, la segmentation, les sorties baseline et ablations, et les scores d’impact. Importez-les dans l’interface preatorlabs (bouton « Importer une analyse ») pour visualiser les graphiques d’impact par segment.