
Story Points vs Cycle Time : L’illusion de l’estimation
Au travers de l’analyse concrète de 296 tickets de l’équipe Alpha (le nom a été modifié pour protéger les innocents) nous allons voir pourquoi les Story Points échouent à prédire le temps de livraison et comment le coefficient de Pearson révèle cette réalité inconfortable.
La promesse des Story Points
Depuis leur utilisation massive dans les équipes utilisant le cadre Scrum, les Story Points sont devenus l’unité d’estimation favorite des équipes agiles. La promesse initiale était séduisante : estimer la complexité relative d’un travail plutôt que sa durée, permettant ainsi aux équipes de s’affranchir des biais temporels et de capitaliser sur leur expérience collective. Beau projet !
En théorie, un ticket estimé à 5 SP devrait prendre environ 2,5 fois plus de temps qu’un ticket à 2 SP. Cette proportionnalité est au cœur de la vélocité et des prévisions de sprint. Mais qu’en est-il vraiment dans la pratique du qotidien ?
« Les Story Points mesurent la complexité, pas le temps. Pourtant, nous les utilisons régulièrement pour prédire… le temps ! »
En partant d’un cas réel, l’analyse des 296 tickets de l’équipe Alpha va nous permettre de vérifier objectivement si leurs estimations en Story Points sont corrélées avec le temps réel de livraison.
Spoiler alert!: les résultats sont édifiants.
Le graphique de suivi Story Points vs Cycle Time
Le graphique SP (Story Points) vs Cycle Time ci-dessous représente chaque ticket complété par l’équipe. L’axe horizontal (abscisse) indique les Story Points estimés, l’axe vertical (ordonnée) le Cycle Time réel en jours. Si les estimations étaient prédictives, nous observerions un alignement serré le long de la ligne de régression.

La première observation est que la dispersion massive des points est flagrante. Pour une même valeur de SP (par exemple 5), le Cycle Time varie de 0.03 à 101.75 jours ! Cette variance de plus de 3000:1 rend toute prédiction basée sur les Story Points totalement faux et irréalisable et s’apparente plus à lire dans une boule de cristal que d’avoir une analyse professionnelle et pertinnante de la capacité d’une équipe à tenir ses promesses.
Le coefficient de Pearson
Bien évidemment il peut arriver qu’une équipe utilise le façon optimale les Story Point, lui permettant d’obtenir une qualité de prédictibilité équivalente à une mesure de Cycle Time.
Mais comment s’en assurer ?
Pour quantifier objectivement la relation entre Story Points et Cycle Time, je conseilles d’utiliser le coefficient de corrélation de Pearson (noté r). Cet indicateur statistique, développé par Karl Pearson à la fin du XIXe siècle, mesure la force et la direction de la relation linéaire entre deux variables.

Comment lire et comprendre cette formule ?
- Le numérateur mesure la co-variance : comment SP et CT varient ensemble. Si quand SP augmente, CT augmente aussi, le produit (xᵢ – x̄)(yᵢ – ȳ) est positif.
- Le dénominateur normalise par les écarts-types des deux variables, garantissant que r reste entre -1 et +1.
- En pratique : r proche de +1 signifie que plus les SP sont élevés, plus le CT est long (corrélation positive forte). r proche de 0 signifie qu’il n’y a pas de relation linéaire (c’est le cas de notre équipe Alpha !)

Comprendre le coefficient R² (R-squared ou coefficient de détermination)
Le R² est simplement le carré de r : R² = r² = 0.2776² = 0.077 = 7.7%
Il représente la proportion de variance expliquée : sur 100% de variabilité du Cycle Time, combien est attribuable aux Story Points ?
Interprétation pour l’équipe Alpha: Avec R² = 7.7%, les Story Points n’expliquent que 7.7% des variations de durée. Les 92.3% restants proviennent d’autres facteurs (complexité cachée, dépendances, interruptions, dette technique, etc.).

Attention aux faux positifs !
Un r positif ne garantit pas une relation de cause à effet ! Même avec r = 0.28, on ne peut pas affirmer que « plus de SP cause plus de temps ». D’autres variables confondantes (complexité du domaine, expérience de l’équipe, qualité des specs) peuvent expliquer à la fois l’estimation élevée ET le temps long, sans lien direct entre SP et CT.
Analyse détaillée par Story Point
La mesure du coefficient doit s’accompagner d’une analyse plus détaillée. Dans le cas de notre équipe Alpha cette analyse révèle des coefficients de variation (CV) alarmants. Un CV supérieur à 25% est généralement considéré comme le seuil au-delà duquel la prédictibilité devient problématique.


Dans le cas de l’équipe Alpha, le constat est alarmant !
- 5 SP : Le CV de 113.4% signifie que l’écart-type est plus grand que la moyenne ! Un ticket 5 SP peut prendre de quelques heures à plus de 100 jours.
- 3 SP : Avec 102 tickets, c’est l’échantillon le plus représentatif. Le CV de 111.4% confirme l’absence totale de prédictibilité.
- 4 SP : Le pire CV à 141.4% — prédire un ticket 4 SP revient à jouer à pile ou face.
Pourquoi prédire avec les Story Points amène quasiment toujours à l’échec !
L’analyse des données de l’équipe Alpha, avec un coefficient de Pearson de seulement 0.28, met en lumière plusieurs raisons fondamentales pour lesquelles les Story Points ne sont pas une mesure fiable.
- La subjectivité de l’estimation
- Les Story Points sont intrinsèquement subjectifs. Un développeur senior estimera 3 SP là où un junior verra 8 SP. Cette variabilité individuelle pollue la donnée collective — et explique notamment pourquoi 80 tickets (21%) de l’équipe Alpha n’ont même pas de SP et n’ont pas pu être utilisé dans cette analyse
- La concentration sur 3 et 5 SP
- 77% des tickets (230 sur 296) sont estimés à 3 ou 5 SP. Cette « zone de confort » suggère que l’équipe semble éviter les estimations fines et utilise ces valeurs par défaut, réduisant la granularité prédictive.
- Les outliers (valeurs aberrantes) extrêmes
- Un ticket 5 SP livré en 101.75 jours vs un autre en 0.03 jour illustre parfaitement l’échec du modèle. Ces cas extrêmes ne sont pas des anomalies. Ils représentent la réalité de la variance.
- L’ignorance des facteurs externes
- Les SP ne captent pas les interruptions, les dépendances, la dette technique, les changements de specs, les blocages ou les problèmes d’environnement — autant de facteurs qui représentent 92.3% de la variance réelle.
« Avec un R² de 7.7%, utiliser les Story Points pour planifier revient pour l’équipe Alpha à jouer aux dés avec le planning et les promesses. »
Une alternative crédible : Les Flow Metrics !
Face aux limitations que nous avons constatés sur l’estimation via les Story Points, les Flow Metrics offrent une approche factuelle et puissante différente: mesurer ce qu’il s’est réellement passé plutôt que ce que l’on aurait souhaité qu’il se passe. Cette approche probabiliste et réaliste, basée sur les données historiques, transforme la prédictibilité en impact fort sur l’efficience opérationnelle de l’équipe.
- Throughput : Mesurer le débit réel
- Combien de tickets l’équipe Équipe Alpha livre par semaine ? Cette métrique factuelle, combinée à Monte Carlo, permet des prévisions probabilistes sans estimation subjective.
- Cycle Time percentiles
- Avec un CT médian de 7.02 jours pour les 5 SP, utilisez les percentiles (P50, P85, P95) pour des SLE fiables : « 85% des tickets seront livrés en moins de X jours ».
- WIP : Contrôler le flux
- La loi de Little (Cycle Time = WIP / Throughput) démontre que limiter le Work In Progress accélère mécaniquement les livraisons — indépendamment des estimations.
- Forecasting probabiliste (Simulation de Monte-Carlo)
- « 85% de chances de livrer avant le 15 janvier » est infiniment plus utile que « on estime 34 Story Points ». L’approche Monte Carlo exploite l’historique pour des prédictions fiables.
Voici un état des lieux de la performance des Flow Metrics percentile de l’équipe Alpha
| Métriques | Tous les tickets (376) | Tickets avec SP (296) | Tickets sans SP |
| Moyenne | 7.65 jours | 7.76 jours | 7.26 jours |
| P50 (Médian) | 5.11 jours | 5.53 jours | 3.13 jours |
| P85 (SLE) | 11.64 jours | 11.29 jours | 13.18 jours |
| P95 | 23.58 jours | 23.16 jours | 31.18 jours |
Détail par Story Point
| Story Point | Nb ticket | P50 (Médian) | P85 (SLE) | P95 |
| 1 | 2 | 2.61 jours | 2.61 jours | 2.71 jours |
| 2 | 15 | 2.34 jours | 1.80 jours | 3.35 jours |
| 3 | 102 | 5.70 jours | 4.28 jours | 7.74 jours |
| 4 | 21 | 7.86 jours | 4.07 jours | 8.38 jours |
| 5 | 128 | 9.36 jours | 7.01 jours | 13.18 jours |
| 8 | 22 | 11.30 jours | 10.50 jours | 17.45 jours |
Avec r = 0.28, cessez d’utiliser les SP pour les engagements de date.
Basculez vers les percentiles de Cycle Time : P50 = 7j, P85 pour les SLE.
Si vous conservez les SP, limitez-vous à 1-3 SP (zone de moindre variance).
Utilisez le Throughput historique + Monte Carlo pour vos prévisions de sprint.
Conseil: Pour définir un SLE (Service Level Expectation) fiable pour l’équipe Alpha : « 85% de nos tickets sont livrés en 12 jours ou moins ». C’est une promesse beaucoup plus fiable que n’importe quelle estimation en Story Points
Note: Qu’est ce qu’un SLE (Service Level Expectation – Niveau de Service Attendu)
Un SLE est un engagement probabiliste sur le délai de livraison basé sur les données historiques réelles de l’équipe.
Format standard : « X% de nos tickets sont livrés en Y jours ou moins »
Exemple concret (Équipe Alpha) :
- SLE 50% : 50% des tickets livrés en ≤ 5.5 jours
- SLE 85% : 85% des tickets livrés en ≤ 11.3 jours – Permet un bon niveau d’engagement.
- SLE 95% : 95% des tickets livrés en ≤ 23.2 jours
Les Story Points ne sont pas inutiles, ils sont simplement mal utilisés
Ne jetons pas le bébé avec l’eau du bain. bien que les Story Points échouent à prédire le temps, ils excellent dans d’autres domaines que les données quantitatives ne capturent pas.
Utilisés correctement et indépendamment de toute pression managériale, ils servent avant tout à créer des échanges, de la collaboration et une compréhension commune.
Les Story Points sont donc plutôt un outil de conversation q’un outil de prévision et de planification.
Ou le bas blesse c’est lorsqu’on leur demande de faire ce pour quoi ils n’ont jamais été pensés : prédire quand un travail sera livré.
Dès que les Story Points deviennent des engagements, des indicateurs de performance ou des promesses de planning, ils perdent leur valeur collaborative et génèrent des biais, de la pression et des comportements défensifs.
Le vrai changement n’est donc pas de supprimer les Story Points à tout prix, mais de les remettre à leur juste place : utiles pour la discussion, inadaptés pour la prédictibilité.
La conversation aide les équipes à comprendre le travail. Les données aident les organisations à comprendre le système.
Les deux sont nécessaires et complémentaires, mais ils ne répondent pas aux mêmes besoins.
Conclusion
Le constat est simple. les Story Points mesurent une perception de complexité, pas une durée, n’y une efficience opérationnelle, alors que c’est justement de cela que vos commanditaires/clients ont besoin.
Avec des R² souvent inférieurs à 15%, les Story Points n’expliquent qu’une fraction marginale du temps réel de livraison. Le reste (dépendances, interruptions, dette technique) échappe totalement à l’estimation.
Les Service Level Expectations (SLE), basés sur l’historique réel, offrent une prédictibilité supérieure. « 85% de nos tickets livrés en 12 jours » vaut mieux que « on estime 5 Story Points ».
La vraie question n’est plus « combien de points ? » mais « quand sera-t-il livré ? »
Et seules les données historiques peuvent y répondre honnêtement.
C’est ce que Flow Analytics Pro vous offre en produisant des Flow Metrics factuels, boosté à l’IA sur l’analyse des données et les recommandations d’améliorations.
La version 7.2 (janvier-février 2026), mettra à disposition de toutes les équipes un graphique de suivi des Story Points vs Cycle Time et une analyse IA intégrant le coefficient de Pearson.
Voici le type de rapport qu’Alice, notre IA générera et qui pourra être consulté en HTML/PDF et historisé.


