Story Points vs Cycle Time
Corrélation entre estimation de complexité et durée réelle de livraison
Synthèse
Sur les 5 catégories de SP statistiquement fiables (n ≥ 10), la médiane du cycle time croît de façon monotone avec les Story Points : 2,6 j (1 SP) → 6,8 j (2 SP) → 7,1 j (3 SP) → 8,5 j (5 SP) → 15,2 j (8 SP). La corrélation positive existe donc, mais elle est faible : l'écart entre 1 SP et 5 SP est seulement de 5,9 jours médians (×3,3), alors qu'une corrélation forte produirait des ratios bien plus importants. La moyenne est massivement distordue par des outliers — notamment la catégorie 2 SP (moyenne 29,3 j mais médiane 6,8 j, ratio ×4,3) et le maximum de 250,8 j en 5 SP. Ces outliers révèlent des tickets qui ont stagné très longtemps quelle que soit leur taille estimée. Conclusion : les SP peuvent orienter les engagements de sprint mais ne permettent pas de prédire le cycle time individuel.
Corrélation SP / Cycle Time — Coefficient de Pearson
La variabilité individuelle (outliers 250 j, 193 j) noie le signal — même si la corrélation est réelle (p<0,05), elle est trop faible pour des prédictions individuelles.
Quand on retire la variance des outliers, les SP prédisent très bien la durée typique d'un ticket. Le signal existe — il est masqué par le bruit.
Les SP prédisent correctement le comportement typique d'un ticket (médiane), mais la variance individuelle est énorme dans chaque catégorie. Quelques tickets bloqués très longtemps (250,8 j pour 5 SP, 193,4 j pour 2 SP) suffisent à écraser la corrélation brute. Ce n'est pas un problème d'estimation — c'est un problème de blocages ponctuels non maîtrisés. Si ces outliers étaient traités (tickets escaladés avant 60 j), le Pearson brut remonterait probablement vers 0,5–0,6.
Analyse par catégorie de Story Points
| SP | Fiabilité | n | Médiane CT | Moyenne CT | Ratio moy/méd | Min / Max CT | Spread | Visualisation |
|---|---|---|---|---|---|---|---|---|
| 1 | Fiable | 30 | 2,6 j | 5,8 j ×2,2 | 2,2 | 0,0 / 64,0 | 64,0 | |
| 2 | Fiable | 18 | 6,8 j | 29,3 j ×4,3 | 4,3 ! | 0,0 / 193,4 Extrême | 193,4 | |
| 3 | Fiable | 27 | 7,1 j | 9,1 j | 1,3 | 0,3 / 43,3 | 43,0 | |
| 5 | Fiable | 30 | 8,5 j | 16,5 j ×1,9 | 1,9 | 0,0 / 250,8 MAX | 250,8 | |
| 8 | Fiable | 10 | 15,2 j | 34,0 j ×2,2 | 2,2 | 2,4 / 131,7 Extrême | 129,3 | |
| 13 | Non repr. | 2 | 40,8 j | 40,8 j | 1,0 | 23,9 / 57,6 | 33,7 | — n=2 |
| 21 | Non repr. | 1 | 13,3 j | 13,3 j | 1,0 | 13,3 / 13,3 | 0 | — n=1 |
Les barres de visualisation sont normalisées sur une échelle de 0 à 15,2 j (médiane maximale fiable). Les catégories SP 13 et 21 sont exclues des conclusions sur la corrélation.
Outliers extrêmes (max > 100 j)
Plus grand outlier de la série — un ticket estimé à 5 SP a pris 250 jours. Soit il a été abandonné et clôturé tardivement, soit il a été bloqué pendant des mois. À investiguer : quelle était la nature de ce ticket et pourquoi n'a-t-il pas été escaladé ?
Ticket estimé à 2 SP ayant pris 193 jours. Explique à lui seul pourquoi la moyenne 2 SP (29,3 j) dépasse la médiane (6,8 j) d'un facteur ×4,3. Sous-estimation massive ou ticket bloqué sur une dépendance externe.
Ticket 8 SP ayant pris 131 jours pour une médiane de 15,2 j. Ratio max/médiane de ×8,7. Confirme que même les tickets de grande taille estimée peuvent être bloqués ou mal scopés.
SLE recommandés par catégorie (médiane comme base)
| Story Points | SLE recommandé (médiane) | Confiance | Commentaire |
|---|---|---|---|
| 1 SP | 2,6 j | Élevée | n=30, représentatif |
| 2 SP | 6,8 j | Moyenne | n=18, mais outlier max=193j fausse l'image globale |
| 3 SP | 7,1 j | Élevée | n=27, distribution moins distordue (ratio 1,3) |
| 5 SP | 8,5 j | Moyenne | n=30, mais max=250,8j — grande variabilité interne |
| 8 SP | 15,2 j | Faible | n=10 seulement, spread 129j — peu prédictible |
| 13 SP | 40,8 j | Non repr. | n=2 — statistiquement non fiable |
| 21 SP | 13,3 j | Non repr. | n=1 — une seule donnée |
Ces SLE sont indicatifs uniquement. La variabilité interne à chaque catégorie (spread de 43 à 250 jours) rend la prédiction individuelle peu fiable. À utiliser pour orienter les engagements de sprint globaux, pas pour promettre une date de livraison individuelle.
Risques identifiés
-
Utilisation de la moyenne au lieu de la médiane pour calibrer les SLE
Probabilité élevée — Impact élevéSi l'équipe ou les parties prenantes utilisent la moyenne (29,3 j pour 2 SP, 34 j pour 8 SP) comme référence de cycle time, leurs engagements seront systématiquement surestimés, créant une fausse impression de capacité.
-
Outlier 250,8 j (5 SP) — ticket non surveillé ou abandonné
Probabilité élevée — Impact élevéUn ticket estimé à 5 SP ayant pris 250 jours sans alerte est le signe d'un processus de suivi défaillant. Si ce type d'événement se reproduit, il dégrage silencieusement les métriques globales et fausse toute analyse de corrélation.
-
Corrélation faible → SP utilisés à tort pour promettre des délais
Probabilité moyenne — Impact élevéLa corrélation SP/CT est positive mais faible. Si l'équipe promet une livraison en X jours "parce que c'est estimé à 2 SP", elle s'expose à des ruptures d'engagement dues à la variabilité interne (max 193 j pour 2 SP).
-
Catégories 13 et 21 SP non représentatives — tendance non extrapolable
Probabilité moyenne — Impact moyenAvec 2 et 1 tickets respectivement, les catégories 13 et 21 SP ne permettent pas de conclure sur la corrélation pour les grands tickets. Si l'équipe taille des tickets de 13+ SP régulièrement, les données sont insuffisantes.
Recommandations
-
Priorité haute Mesure Adopter la médiane (et non la moyenne) comme référence officielle de CT par SP
La moyenne du cycle time par catégorie de SP est massivement distordue par des outliers (ratio 4,3× pour 2 SP, 2,2× pour 8 SP). Utiliser la médiane comme référence officielle supprime l'influence des tickets bloqués exceptionnellement longtemps. Documenter explicitement ce choix dans le wiki de l'équipe et former les parties prenantes à lire la médiane, pas la moyenne, dans les rapports de cycle time.
Impact attendu : engagements de sprint mieux calibrés, SLE plus réalistes, réduction des déceptions liées aux promesses basées sur la moyenne.
-
Priorité haute Processus Investiguer les tickets à max CT extrême (250 j, 193 j, 131 j)
Trois tickets ont des cycle times de 250, 193 et 131 jours — soit 6 à 30× la médiane de leur catégorie. Ces outliers correspondent vraisemblablement à des tickets oubliés, bloqués sans escalade, ou clôturés bien après leur achèvement réel. Identifier ces tickets (via le scatterplot), analyser leur parcours et corriger si nécessaire les dates de clôture erronées. Mettre en place une alerte automatique pour tout ticket dépassant 2× le P85 du cycle time de sa catégorie.
Impact attendu : données de cycle time plus fiables, moyennes par SP moins distordues, meilleure base pour la corrélation future.
-
Priorité moyenne Estimation Ne pas utiliser les SP comme prédicteur de cycle time individuel
La corrélation positive est réelle mais faible pour les prédictions individuelles : un ticket 5 SP peut prendre de 0 à 250 jours. Les SP restent utiles pour planifier la charge globale d'un sprint (vélocité en SP = capacité), mais promettre une date de livraison à partir de la taille en SP d'un ticket n'est pas fiable. Pour les SLE individuels, utiliser le cycle time historique global (P85 toutes tailles confondues) plutôt qu'un SLE différencié par SP.
Impact attendu : engagements de delivery plus fiables, réduction des conflits d'attente avec les parties prenantes.
-
Priorité basse Mesure Augmenter le volume de données pour les catégories 8, 13 et 21 SP
8 SP avec seulement 10 tickets (fiabilité limite) et 13/21 SP avec 2 et 1 tickets ne permettent pas de tirer de conclusions fiables sur la corrélation pour les grands tickets. Sur le prochain semestre, tracker si la tendance médiane se confirme (8 SP médiane restant autour de 15 j) et si les outliers extrêmes se reproduisent.
Impact attendu : corrélation SP/CT validée ou infirmée sur un plus grand échantillon, meilleure décision sur l'utilité des SP dans ce contexte.
Questions pour la rétrospective
- Le ticket estimé à 5 SP ayant pris 250 jours — que s'est-il passé ? Était-il bloqué, abandonné, ou sa date de clôture est-elle erronée ?
- Plusieurs tickets ont un cycle time de 0 jours (1 SP, 2 SP, 5 SP min=0) — sont-ils créés et immédiatement clôturés, ou y a-t-il un problème de datation dans l'outil ?
- Les Story Points que nous estimons capturent-ils principalement la complexité technique, la valeur business, ou les deux ? Cette réponse change l'interprétation de la corrélation avec le cycle time.
- Si la corrélation SP/CT est faible, quelle métrique devrions-nous suivre pour promettre des délais de livraison aux parties prenantes ?