Alice — Flow Analytics Pro

Story Points vs Cycle Time

Corrélation entre estimation de complexité et durée réelle de livraison

Période
01/01/2021 — 01/07/2021
Tickets analysés
118 tickets (7 catégories SP)
Catégories fiables
5 (SP 1, 2, 3, 5, 8 — n ≥ 10)
Types inclus
Story, Bug, Task
Filtres
Tous (aucun filtre actif)
Généré le
26/04/2026

Synthèse

Sur les 5 catégories de SP statistiquement fiables (n ≥ 10), la médiane du cycle time croît de façon monotone avec les Story Points : 2,6 j (1 SP) → 6,8 j (2 SP) → 7,1 j (3 SP) → 8,5 j (5 SP) → 15,2 j (8 SP). La corrélation positive existe donc, mais elle est faible : l'écart entre 1 SP et 5 SP est seulement de 5,9 jours médians (×3,3), alors qu'une corrélation forte produirait des ratios bien plus importants. La moyenne est massivement distordue par des outliers — notamment la catégorie 2 SP (moyenne 29,3 j mais médiane 6,8 j, ratio ×4,3) et le maximum de 250,8 j en 5 SP. Ces outliers révèlent des tickets qui ont stagné très longtemps quelle que soit leur taille estimée. Conclusion : les SP peuvent orienter les engagements de sprint mais ne permettent pas de prédire le cycle time individuel.

Corrélation SP / Cycle Time — Coefficient de Pearson

Pearson brut — 118 tickets individuels
0,186
p < 0,05 · statistiquement significatif
Corrélation faible

La variabilité individuelle (outliers 250 j, 193 j) noie le signal — même si la corrélation est réelle (p<0,05), elle est trop faible pour des prédictions individuelles.

Pearson médianes — 5 buckets fiables (SP 1, 2, 3, 5, 8)
0,963
Corrélation quasi-parfaite sur les comportements typiques
Corrélation forte

Quand on retire la variance des outliers, les SP prédisent très bien la durée typique d'un ticket. Le signal existe — il est masqué par le bruit.

Pourquoi cette divergence (r=0,19 brut vs r=0,96 médianes) ?

Les SP prédisent correctement le comportement typique d'un ticket (médiane), mais la variance individuelle est énorme dans chaque catégorie. Quelques tickets bloqués très longtemps (250,8 j pour 5 SP, 193,4 j pour 2 SP) suffisent à écraser la corrélation brute. Ce n'est pas un problème d'estimation — c'est un problème de blocages ponctuels non maîtrisés. Si ces outliers étaient traités (tickets escaladés avant 60 j), le Pearson brut remonterait probablement vers 0,5–0,6.

Catégories fiables (n ≥ 10) 5 SP 1, 2, 3, 5, 8
Catégories exclues (n < 5) 2 SP 13 (n=2), SP 21 (n=1)
Tendance médiane ↑ Monotone 2,6 → 15,2 j (SP 1→8)
SP utiles pour planification ? Oui Sprint global · pas SLE individuel

Analyse par catégorie de Story Points

Médiane CT
Moyenne CT
Moyenne distordue (ratio > 2)
SP Fiabilité n Médiane CT Moyenne CT Ratio moy/méd Min / Max CT Spread Visualisation
1 Fiable 30 2,6 j 5,8 j ×2,2 2,2 0,0 / 64,0 64,0
2 Fiable 18 6,8 j 29,3 j ×4,3 4,3 ! 0,0 / 193,4 Extrême 193,4
3 Fiable 27 7,1 j 9,1 j 1,3 0,3 / 43,3 43,0
5 Fiable 30 8,5 j 16,5 j ×1,9 1,9 0,0 / 250,8 MAX 250,8
8 Fiable 10 15,2 j 34,0 j ×2,2 2,2 2,4 / 131,7 Extrême 129,3
13 Non repr. 2 40,8 j 40,8 j 1,0 23,9 / 57,6 33,7 — n=2
21 Non repr. 1 13,3 j 13,3 j 1,0 13,3 / 13,3 0 — n=1

Les barres de visualisation sont normalisées sur une échelle de 0 à 15,2 j (médiane maximale fiable). Les catégories SP 13 et 21 sont exclues des conclusions sur la corrélation.

Outliers extrêmes (max > 100 j)

5 SP 250,8 j

Plus grand outlier de la série — un ticket estimé à 5 SP a pris 250 jours. Soit il a été abandonné et clôturé tardivement, soit il a été bloqué pendant des mois. À investiguer : quelle était la nature de ce ticket et pourquoi n'a-t-il pas été escaladé ?

2 SP 193,4 j

Ticket estimé à 2 SP ayant pris 193 jours. Explique à lui seul pourquoi la moyenne 2 SP (29,3 j) dépasse la médiane (6,8 j) d'un facteur ×4,3. Sous-estimation massive ou ticket bloqué sur une dépendance externe.

8 SP 131,7 j

Ticket 8 SP ayant pris 131 jours pour une médiane de 15,2 j. Ratio max/médiane de ×8,7. Confirme que même les tickets de grande taille estimée peuvent être bloqués ou mal scopés.

SLE recommandés par catégorie (médiane comme base)

Story Points SLE recommandé (médiane) Confiance Commentaire
1 SP 2,6 j Élevée n=30, représentatif
2 SP 6,8 j Moyenne n=18, mais outlier max=193j fausse l'image globale
3 SP 7,1 j Élevée n=27, distribution moins distordue (ratio 1,3)
5 SP 8,5 j Moyenne n=30, mais max=250,8j — grande variabilité interne
8 SP 15,2 j Faible n=10 seulement, spread 129j — peu prédictible
13 SP 40,8 j Non repr. n=2 — statistiquement non fiable
21 SP 13,3 j Non repr. n=1 — une seule donnée

Ces SLE sont indicatifs uniquement. La variabilité interne à chaque catégorie (spread de 43 à 250 jours) rend la prédiction individuelle peu fiable. À utiliser pour orienter les engagements de sprint globaux, pas pour promettre une date de livraison individuelle.

Risques identifiés

Recommandations

  1. Priorité haute Mesure

    Adopter la médiane (et non la moyenne) comme référence officielle de CT par SP

    La moyenne du cycle time par catégorie de SP est massivement distordue par des outliers (ratio 4,3× pour 2 SP, 2,2× pour 8 SP). Utiliser la médiane comme référence officielle supprime l'influence des tickets bloqués exceptionnellement longtemps. Documenter explicitement ce choix dans le wiki de l'équipe et former les parties prenantes à lire la médiane, pas la moyenne, dans les rapports de cycle time.

    Impact attendu : engagements de sprint mieux calibrés, SLE plus réalistes, réduction des déceptions liées aux promesses basées sur la moyenne.

  2. Priorité haute Processus

    Investiguer les tickets à max CT extrême (250 j, 193 j, 131 j)

    Trois tickets ont des cycle times de 250, 193 et 131 jours — soit 6 à 30× la médiane de leur catégorie. Ces outliers correspondent vraisemblablement à des tickets oubliés, bloqués sans escalade, ou clôturés bien après leur achèvement réel. Identifier ces tickets (via le scatterplot), analyser leur parcours et corriger si nécessaire les dates de clôture erronées. Mettre en place une alerte automatique pour tout ticket dépassant 2× le P85 du cycle time de sa catégorie.

    Impact attendu : données de cycle time plus fiables, moyennes par SP moins distordues, meilleure base pour la corrélation future.

  3. Priorité moyenne Estimation

    Ne pas utiliser les SP comme prédicteur de cycle time individuel

    La corrélation positive est réelle mais faible pour les prédictions individuelles : un ticket 5 SP peut prendre de 0 à 250 jours. Les SP restent utiles pour planifier la charge globale d'un sprint (vélocité en SP = capacité), mais promettre une date de livraison à partir de la taille en SP d'un ticket n'est pas fiable. Pour les SLE individuels, utiliser le cycle time historique global (P85 toutes tailles confondues) plutôt qu'un SLE différencié par SP.

    Impact attendu : engagements de delivery plus fiables, réduction des conflits d'attente avec les parties prenantes.

  4. Priorité basse Mesure

    Augmenter le volume de données pour les catégories 8, 13 et 21 SP

    8 SP avec seulement 10 tickets (fiabilité limite) et 13/21 SP avec 2 et 1 tickets ne permettent pas de tirer de conclusions fiables sur la corrélation pour les grands tickets. Sur le prochain semestre, tracker si la tendance médiane se confirme (8 SP médiane restant autour de 15 j) et si les outliers extrêmes se reproduisent.

    Impact attendu : corrélation SP/CT validée ou infirmée sur un plus grand échantillon, meilleure décision sur l'utilité des SP dans ce contexte.

Questions pour la rétrospective