Comment assurer la significativité statistique de vos groupes témoins ?

J’ai récemment publié un article sur les tests de groupes témoins. Je m’y interrogeais sur leur pertinence. Il me semble en effet qu’ils sont recommandés un peu trop fréquemment, sans prendre en compte le but véritable de l’étude envisagée.

Je pense que les groupes témoins sont difficiles à mettre en place et ne sont en aucun cas adaptés à toutes les situations.

Après vous avoir exposé ce qui selon moi était la meilleure situation pour mettre en place un test de groupe témoin, je vous ai partagé quelques conseils et bonnes pratiques sur la manière de définir vos groupes témoins, si vous décidiez d’utiliser cette méthode après tout.

J’ai mentionné le fait que les groupes témoins sont extrêmement dépendants du volume de données disponibles afin de garantir leur significativité statistique. Mais vous vous demandez peut-être : qu’est-ce donc que la significativité statistique ?

Définir la significativité statistique, la “p-value” qui en découle, et les manières d’améliorer la pertinence de vos résultats vous permettra non seulement de préciser vos décisions stratégiques et de vous donner une compréhension plus fine de ce que vous êtes en train de mesurer dans le cadre de vos résultats de tests de groupes témoins.

C’est parti, retroussez vos manches et préparez-vous pour un peu de gymnastique mathématique.

Nous allons aborder :

Comment la significativité statistique de vos résultats de test est définie par la p-value.
La méthode pour calculer avec précision la p-value de vos tests de groupes témoins.
Comment minimiser le bruit statistique et améliorer la significativité de vos résultats de test.

Définir la significativité statistique des résultats de test grâce à la p-value

Tout d’abord, commençons par définir ce qu’est la p-value. “P-value” signifie “probability value”, parfois désignée par “valeur-p” en français, et représente la probabilité d’obtenir des résultats de tests au moins aussi dispersés que les résultats obtenus au cours d’un test sur des données réelles.

En d’autres termes, votre test doit représenter l’éventail des possibles et s’appliquer aux situations de la vie réelle, même les plus extrêmes. La p-value permet de garantir cela.

Elle est très couramment employée dans les tests statistiques, ce qui est exactement ce dont il retourne ici.

Revenons-en aux groupes témoins.

Pour vous assurer que les résultats de vos tests ne sont pas dus au hasard, vous allez devoir déterminer si vous avez atteint un niveau suffisant de significativité statistique. Les choses étant bien faites, la significativité statistique repose sur la p-value.

Plus votre p-value est faible, moins vos résultats de test sont susceptibles d’être dus au hasard.

Dans tous les domaines d’étude où la significativité statistique joue un rôle, qu’il s’agisse de marketing ou de biologie, des résultats seront considérés comme significatifs si leur p-value est inférieure ou égale à 5%. Formulé autrement : vos résultats de test auront 95 % de chance de ne pas être dus au hasard.

Si vous décidez de mettre en place un groupe témoin et si votre p-value atteint une valeur inférieure à 5, vous pouvez donc être sûr.e.s à 95 % que la stratégie testée fonctionne.

C’est une valeur forte et vous pouvez donc adopter la stratégie testée en toute confiance.

De plus, vous obtiendrez une bonne estimation du revenu incrémental que votre nouvelle stratégie pourra espérer générer pour votre business.

Tout irait donc pour le mieux, dans le meilleur des mondes.

La méthode pour calculer avec exactitude la p-value de vos tests de groupes témoins

Vous comprenez maintenant l’intérêt de la significativité statistique pour vos résultats de tests.

Mais comment cela fonctionne-t-il concrètement ?

Examinons ensemble les différentes étapes à suivre pour réaliser un test concluant.

Générer des découpages aléatoires de revenus

Vous allez devoir évaluer l’impact du bruit statistique sur l’ensemble de votre base de données.

Une petite précision pour avancer : toutes les bases de données montrent différents niveaux de bruit, selon leur taille, le secteur d’activité de l’entreprise, le nombre d’acheteurs, le panier moyen, etc.

Par conséquent, vous devez être en mesure d’évaluer le niveau de bruit que représente votre base de données, et définir la manière de le réduire au minimum.

Pour cela, vous allez devoir simuler un grand nombre de découpages aléatoires de vos revenus.

Un peu comme si vous appliquiez des groupes témoins aléatoires à vos données.

Ce faisant, vous pourrez calculer un volume conséquent d’incréments aléatoires, simulant ainsi les cas où votre stratégie n’a aucun effet.

Ce nombre important d’incréments aléatoires vous montrera la dispersion naturelle des revenus à laquelle vous pouvez vous attendre dans une analyse de groupe témoin.

Pour parler en termes plus concrets, votre test générera par exemple 10 000 découpages et mesurera à chaque fois la différence de revenus entre le groupe test et le groupe témoin simulés.

Vous pourrez ainsi calculer votre volume naturel d’incrément de manière statistiquement significative.

Vos résultats devraient ressembler à cela, avec une représentation de vos découpages de revenus sur l’axe des abscisses, et votre nombre d’occurrences en axe des ordonnées.

Comment exploiter la significativité statistique dans la pratique ?

Voilà la partie facile.

Vous allez devoir calculer le revenu incrémental réel de votre stratégie, et le comparer aux résultats générés par vos incréments aléatoires.

Par exemple, si vous opté pour une répartition à parts égales de votre base de données entre votre groupe test et votre groupe témoin, vous obtiendrez la formule suivante : Revenu incrémental = Revenu généré par le groupe test – Revenu généré par le groupe témoin

En comparant ce revenu incrémental avec notre le grand nombre d’incréments générés aléatoirement, vous pouvez évaluer si le calcul de votre revenu incrémental est significatif.

Cet incrément doit être supérieur à au moins 95 % des incréments aléatoirement générés.

Pour revenir au graphique ci-dessus, cela signifie que la plus grande partie de la courbe que vous avez générée doit se trouver sur la gauche du revenu incrémental mesuré lors de votre test de groupe témoin.

Prenons un exemple concret.

Sur le graphique ci-dessous, le revenu incrémental réel mesuré est de 500 000 €.

9 856 incréments aléatoires sont inférieurs à 500 000 € (98,56 %).

Cela signifie donc que, dans notre exemple, il y a 98,56 % de chance que votre résultat ne soit pas dû au hasard, ce qui est supérieur au palier requis de 95 % pour qu’un test soit considéré comme significatif.

Comment minimiser le bruit statistique et optimiser la significativité statistique ?

Afin que votre test soit réellement significatif, vous allez devoir réduire le bruit statistique au maximum.

L’évaluation du bruit est centrale dans le calcul de la significativité.

Si vous ne prenez pas en compte le bruit généré par votre test, vous ne pourrez jamais être certain.e.s de la pertinence de vos résultats.

Il existe justement quelques méthodes pour vous en assurer.

Écarter une partie de vos clients les plus extrêmes

Certains de vos clients génèrent tellement de revenus que les garder dans vos groupes tests ou témoins peut biaiser vos résultats de manière significative.

En tant que marketeurs, nous les appelons les supers acheteurs.

Si vous les retirez de vos deux groupes, vous réduirez ainsi l’incertitude relative aux résultats de votre test.

Le sous-groupe que vous déciderez d’écarter doit reposer sur vos données passées, avant même que votre test ne commence.

Prendre en compte l’exposition à votre nouvelle stratégie marketing

Si vous effectuez vos tests sur une stratégie marketing déjà diffusée, vos clients pourront y avoir déjà été exposés.

Vous avez donc deux manières de procéder :

Vous pouvez décider de vous concentrer sur les clients impactés, en ne prenant en compte que les achats de clients ayant été exposés à votre nouvelle stratégie marketing pour le groupe test, ou après qu’ils auraient dû y être exposés pour le groupe témoin.
Sinon, vous pouvez décider de retirer vos clients non exposés. Certains clients ne seront jamais exposés à votre nouvelle stratégie. Comme vous ne pourrez jamais les toucher, il est inutile de les prendre en compte… à condition que cela soit transposé dans votre groupe témoin.

Ces clients doivent être retirés de votre analyse et cela devra également se refléter dans votre analyse des résultats de vos groupes témoins.

Ne vous méprenez pas, cela vous demandera des efforts supplémentaires : vous allez devoir préserver en parallèle la portion de votre base de données qui aura été exposée à votre nouvelle stratégie.

Quelques mots avant de lancer votre groupe témoin – ou pas

J’aimerais conclure cet article en reprenant tous les éléments que nous avons vus ensemble au sujet des groupes témoins.

Dans mon article précédent, je vous mettais en garde contre la tendance naturelle à utiliser des groupes témoins pour tester des campagnes de toutes les tailles et durées.

C’est un mauvais réflexe, car les groupes témoins requièrent une mise en place lourde. Ils nécessitent une expertise statistique et technique, et peuvent même provoquer des pertes de revenus temporaires pendant la phase de test.

Il existe un grand nombre d’autres tests, bien plus simples à mettre en place, et qui pourraient tout aussi bien prouver ce que vous cherchez à montrer.

Cependant, les tests de groupes témoins sont une méthodologie puissante.

Scientifiquement, ils sont bien plus robustes que les méthodes classiques d’attribution.

Vous avez désormais toutes les cartes en main pour prendre les bonnes décisions concernant la mise en place de vos tests de groupes témoins.

Maintenant, à vous de décider ⚖️

Sommaire

1. Définir la significativité statistique des résultats de test grâce à la p-value
2. La méthode pour calculer avec exactitude la p-value de vos tests de groupes témoins
3. Comment minimiser le bruit statistique et optimiser la significativité statistique ?
4. Quelques mots avant de lancer votre groupe témoin – ou pas