Analyse Story Points vs Cycle Time

Synthèse

Sur les 5 catégories de SP statistiquement fiables (n ≥ 10), la médiane du cycle time croît de façon monotone avec les Story Points : 2,6 j (1 SP) → 6,8 j (2 SP) → 7,1 j (3 SP) → 8,5 j (5 SP) → 15,2 j (8 SP). La corrélation positive existe donc, mais elle est faible : l'écart entre 1 SP et 5 SP est seulement de 5,9 jours médians (×3,3), alors qu'une corrélation forte produirait des ratios bien plus importants. La moyenne est massivement distordue par des outliers — notamment la catégorie 2 SP (moyenne 29,3 j mais médiane 6,8 j, ratio ×4,3) et le maximum de 250,8 j en 5 SP. Ces outliers révèlent des tickets qui ont stagné très longtemps quelle que soit leur taille estimée. Conclusion : les SP peuvent orienter les engagements de sprint mais ne permettent pas de prédire le cycle time individuel.

Corrélation SP / Cycle Time — Coefficient de Pearson

Pearson brut — 118 tickets individuels

0,186

p < 0,05 · statistiquement significatif

Corrélation faible

La variabilité individuelle (outliers 250 j, 193 j) noie le signal — même si la corrélation est réelle (p<0,05), elle est trop faible pour des prédictions individuelles.

Pearson médianes — 5 buckets fiables (SP 1, 2, 3, 5, 8)

0,963

Corrélation quasi-parfaite sur les comportements typiques

Corrélation forte

Quand on retire la variance des outliers, les SP prédisent très bien la durée typique d'un ticket. Le signal existe — il est masqué par le bruit.

Pourquoi cette divergence (r=0,19 brut vs r=0,96 médianes) ?

Les SP prédisent correctement le comportement typique d'un ticket (médiane), mais la variance individuelle est énorme dans chaque catégorie. Quelques tickets bloqués très longtemps (250,8 j pour 5 SP, 193,4 j pour 2 SP) suffisent à écraser la corrélation brute. Ce n'est pas un problème d'estimation — c'est un problème de blocages ponctuels non maîtrisés. Si ces outliers étaient traités (tickets escaladés avant 60 j), le Pearson brut remonterait probablement vers 0,5–0,6.

Catégories fiables (n ≥ 10) 5 SP 1, 2, 3, 5, 8

Catégories exclues (n < 5) 2 SP 13 (n=2), SP 21 (n=1)

Tendance médiane ↑ Monotone 2,6 → 15,2 j (SP 1→8)

SP utiles pour planification ? Oui Sprint global · pas SLE individuel

Analyse par catégorie de Story Points

Médiane CT

Moyenne CT

Moyenne distordue (ratio > 2)

SP	Fiabilité	n	Médiane CT	Moyenne CT	Ratio moy/méd	Min / Max CT	Spread	Visualisation
1	Fiable	30	2,6 j	5,8 j ×2,2	2,2	0,0 / 64,0	64,0
2	Fiable	18	6,8 j	29,3 j ×4,3	4,3 !	0,0 / 193,4 Extrême	193,4
3	Fiable	27	7,1 j	9,1 j	1,3	0,3 / 43,3	43,0
5	Fiable	30	8,5 j	16,5 j ×1,9	1,9	0,0 / 250,8 MAX	250,8
8	Fiable	10	15,2 j	34,0 j ×2,2	2,2	2,4 / 131,7 Extrême	129,3
13	Non repr.	2	40,8 j	40,8 j	1,0	23,9 / 57,6	33,7	— n=2
21	Non repr.	1	13,3 j	13,3 j	1,0	13,3 / 13,3	0	— n=1

Les barres de visualisation sont normalisées sur une échelle de 0 à 15,2 j (médiane maximale fiable). Les catégories SP 13 et 21 sont exclues des conclusions sur la corrélation.

Outliers extrêmes (max > 100 j)

5 SP 250,8 j

Plus grand outlier de la série — un ticket estimé à 5 SP a pris 250 jours. Soit il a été abandonné et clôturé tardivement, soit il a été bloqué pendant des mois. À investiguer : quelle était la nature de ce ticket et pourquoi n'a-t-il pas été escaladé ?

2 SP 193,4 j

Ticket estimé à 2 SP ayant pris 193 jours. Explique à lui seul pourquoi la moyenne 2 SP (29,3 j) dépasse la médiane (6,8 j) d'un facteur ×4,3. Sous-estimation massive ou ticket bloqué sur une dépendance externe.

8 SP 131,7 j

Ticket 8 SP ayant pris 131 jours pour une médiane de 15,2 j. Ratio max/médiane de ×8,7. Confirme que même les tickets de grande taille estimée peuvent être bloqués ou mal scopés.

SLE recommandés par catégorie (médiane comme base)

Story Points	SLE recommandé (médiane)	Confiance	Commentaire
1 SP	2,6 j	Élevée	n=30, représentatif
2 SP	6,8 j	Moyenne	n=18, mais outlier max=193j fausse l'image globale
3 SP	7,1 j	Élevée	n=27, distribution moins distordue (ratio 1,3)
5 SP	8,5 j	Moyenne	n=30, mais max=250,8j — grande variabilité interne
8 SP	15,2 j	Faible	n=10 seulement, spread 129j — peu prédictible
13 SP	40,8 j	Non repr.	n=2 — statistiquement non fiable
21 SP	13,3 j	Non repr.	n=1 — une seule donnée

Ces SLE sont indicatifs uniquement. La variabilité interne à chaque catégorie (spread de 43 à 250 jours) rend la prédiction individuelle peu fiable. À utiliser pour orienter les engagements de sprint globaux, pas pour promettre une date de livraison individuelle.

Risques identifiés

Utilisation de la moyenne au lieu de la médiane pour calibrer les SLE
Probabilité élevée — Impact élevé
Si l'équipe ou les parties prenantes utilisent la moyenne (29,3 j pour 2 SP, 34 j pour 8 SP) comme référence de cycle time, leurs engagements seront systématiquement surestimés, créant une fausse impression de capacité.
Outlier 250,8 j (5 SP) — ticket non surveillé ou abandonné
Probabilité élevée — Impact élevé
Un ticket estimé à 5 SP ayant pris 250 jours sans alerte est le signe d'un processus de suivi défaillant. Si ce type d'événement se reproduit, il dégrage silencieusement les métriques globales et fausse toute analyse de corrélation.
Corrélation faible → SP utilisés à tort pour promettre des délais
Probabilité moyenne — Impact élevé
La corrélation SP/CT est positive mais faible. Si l'équipe promet une livraison en X jours "parce que c'est estimé à 2 SP", elle s'expose à des ruptures d'engagement dues à la variabilité interne (max 193 j pour 2 SP).
Catégories 13 et 21 SP non représentatives — tendance non extrapolable
Probabilité moyenne — Impact moyen
Avec 2 et 1 tickets respectivement, les catégories 13 et 21 SP ne permettent pas de conclure sur la corrélation pour les grands tickets. Si l'équipe taille des tickets de 13+ SP régulièrement, les données sont insuffisantes.

Recommandations

Priorité haute Mesure

Adopter la médiane (et non la moyenne) comme référence officielle de CT par SP

La moyenne du cycle time par catégorie de SP est massivement distordue par des outliers (ratio 4,3× pour 2 SP, 2,2× pour 8 SP). Utiliser la médiane comme référence officielle supprime l'influence des tickets bloqués exceptionnellement longtemps. Documenter explicitement ce choix dans le wiki de l'équipe et former les parties prenantes à lire la médiane, pas la moyenne, dans les rapports de cycle time.

Impact attendu : engagements de sprint mieux calibrés, SLE plus réalistes, réduction des déceptions liées aux promesses basées sur la moyenne.
Priorité haute Processus

Investiguer les tickets à max CT extrême (250 j, 193 j, 131 j)

Trois tickets ont des cycle times de 250, 193 et 131 jours — soit 6 à 30× la médiane de leur catégorie. Ces outliers correspondent vraisemblablement à des tickets oubliés, bloqués sans escalade, ou clôturés bien après leur achèvement réel. Identifier ces tickets (via le scatterplot), analyser leur parcours et corriger si nécessaire les dates de clôture erronées. Mettre en place une alerte automatique pour tout ticket dépassant 2× le P85 du cycle time de sa catégorie.

Impact attendu : données de cycle time plus fiables, moyennes par SP moins distordues, meilleure base pour la corrélation future.
Priorité moyenne Estimation

Ne pas utiliser les SP comme prédicteur de cycle time individuel

La corrélation positive est réelle mais faible pour les prédictions individuelles : un ticket 5 SP peut prendre de 0 à 250 jours. Les SP restent utiles pour planifier la charge globale d'un sprint (vélocité en SP = capacité), mais promettre une date de livraison à partir de la taille en SP d'un ticket n'est pas fiable. Pour les SLE individuels, utiliser le cycle time historique global (P85 toutes tailles confondues) plutôt qu'un SLE différencié par SP.

Impact attendu : engagements de delivery plus fiables, réduction des conflits d'attente avec les parties prenantes.
Priorité basse Mesure

Augmenter le volume de données pour les catégories 8, 13 et 21 SP

8 SP avec seulement 10 tickets (fiabilité limite) et 13/21 SP avec 2 et 1 tickets ne permettent pas de tirer de conclusions fiables sur la corrélation pour les grands tickets. Sur le prochain semestre, tracker si la tendance médiane se confirme (8 SP médiane restant autour de 15 j) et si les outliers extrêmes se reproduisent.

Impact attendu : corrélation SP/CT validée ou infirmée sur un plus grand échantillon, meilleure décision sur l'utilité des SP dans ce contexte.

Questions pour la rétrospective

Le ticket estimé à 5 SP ayant pris 250 jours — que s'est-il passé ? Était-il bloqué, abandonné, ou sa date de clôture est-elle erronée ?
Plusieurs tickets ont un cycle time de 0 jours (1 SP, 2 SP, 5 SP min=0) — sont-ils créés et immédiatement clôturés, ou y a-t-il un problème de datation dans l'outil ?
Les Story Points que nous estimons capturent-ils principalement la complexité technique, la valeur business, ou les deux ? Cette réponse change l'interprétation de la corrélation avec le cycle time.
Si la corrélation SP/CT est faible, quelle métrique devrions-nous suivre pour promettre des délais de livraison aux parties prenantes ?

Synthèse

Corrélation SP / Cycle Time — Coefficient de Pearson

Analyse par catégorie de Story Points

Outliers extrêmes (max > 100 j)

SLE recommandés par catégorie (médiane comme base)

Risques identifiés

Utilisation de la moyenne au lieu de la médiane pour calibrer les SLE

Outlier 250,8 j (5 SP) — ticket non surveillé ou abandonné

Corrélation faible → SP utilisés à tort pour promettre des délais

Catégories 13 et 21 SP non représentatives — tendance non extrapolable

Recommandations

Adopter la médiane (et non la moyenne) comme référence officielle de CT par SP

Investiguer les tickets à max CT extrême (250 j, 193 j, 131 j)

Ne pas utiliser les SP comme prédicteur de cycle time individuel

Augmenter le volume de données pour les catégories 8, 13 et 21 SP

Questions pour la rétrospective