Comment appliquer les tests A/B aux jeux
Introduction aux tests A/B
Les tests A/B sont un moyen efficace d'optimiser et d'améliorer vos applications de diverses manières grâce à l'expérimentation et à l'analyse minutieuse des données.
L'idée derrière les tests A/B est de comparer et d'opposer des variantes similaires d'utilisateurs tout en fournissant des optimisations différentes pour chaque variante afin de déterminer les changements à apporter à l'avenir. Idéalement, les tests A/B sont utilisés pour comparer deux ou plusieurs versions d'une expérience afin de déterminer laquelle est la plus performante.
Lorsque l'on compare les deux variantes, on les appelle souvent la variante A et la variante B. Les utilisateurs sont assignés de manière aléatoire à chaque variante afin d'éviter tout type de biais susceptible de fausser les données.
Il peut s'agir de biais de pré-test basés sur des variables susceptibles d'affecter les résultats de votre test, comme une campagne sur les médias sociaux récompensant les utilisateurs par des devises pour essayer votre jeu juste avant le début de votre expérience. Cette cohorte d'utilisateurs peut affecter votre test et fournir des résultats faussés.
Les tests A/B vous permettent de prendre des décisions éclairées basées sur des données plutôt que sur une intuition. Il est essentiel de pouvoir fournir des données probantes pour pouvoir apporter en toute confiance les changements nécessaires à l'optimisation de votre application.
En fonction de la taille de votre test, vous pouvez tester plus qu'une simple variante A et B. Les tests peuvent être adaptés pour inclure davantage de variantes. Cependant, la répartition de l'audience en un plus grand nombre de variantes nécessite d'allonger la durée du test pour obtenir une signification statistique, sous peine de voir les données diluées par le manque d'échantillons.
Les raisons les plus courantes d'utiliser les tests A/B sont les suivantes :
- Maximiser le comportement spécifique des joueurs (habitudes d'achat, habitudes de jeu, rétention, etc.)
- Tester les fonctionnalités nouvelles et existantes afin d'optimiser les performances et les taux d'adoption pour les utilisateurs.
- Amélioration des flux d'utilisateurs spécifiques (FTUE, flux d'utilisateurs en magasin, progression des niveaux, rythme des récompenses, etc.)
Il est important de définir vos objectifs pour chaque test A/B afin d'utiliser correctement vos données et votre temps. Veillez à ce que l'objectif commercial de chaque expérience soit clair afin de pouvoir mesurer les indicateurs clés de performance qui fournissent des données précieuses pour encourager les initiatives visant à optimiser votre application.
Un exemple de test A/B in-app serait de tester le solde de la monnaie de départ d'un nouveau joueur. Votre expérience pourrait ressembler à quelque chose de similaire :
Le public : Nouveaux utilisateurs Variante A (activée) : 100 or Variante B (contrôle) : 0 or KPI à mesurer : Taux de rétention (D1, D3, D7, D30), ARPDAU et taux de conversion
Une variante de contrôle est un sous-ensemble d'utilisateurs qui correspondent aux critères d'audience du test, mais qui ne sont pas affectés par le traitement. L'importance de ce groupe est de s'assurer que votre équipe peut clairement voir les hausses ou les baisses mesurées à l'aide des variantes A et B. Les indicateurs de performance clés définis avant le test permettront de déterminer ces changements.
Il est important de noter qu'en comparant l'évolution dans le temps d'un groupe test à celle de la variante de contrôle, il est possible d'isoler les impacts sur les ICP causés par des facteurs extérieurs qui peuvent avoir une incidence sur vos résultats.
Unity Gaming Services a la capacité de créer des campagnes de test A/B en utilisant notre système Game Overrides. Vous pouvez consulter notre guide étape par étape ici. Ne manquez pas de consulter cette page, car nous y ajouterons d'autres conseils dans les mois à venir.
Après avoir effectué ce test, nous pouvons analyser les données pour voir comment chacun des comportements de ces variantes est affecté par la variation de l'équilibre de départ et leur impact sur les indicateurs clés de performance que nous souhaitons mesurer.
Sur la base de notre exemple ci-dessus, nous voulons savoir si la variante A a eu un impact positif (ou négatif) sur nos indicateurs clés de performance. Voici quelques questions que vous pouvez vous poser lorsque vous examinez les résultats :
- La variante A offre-t-elle un taux de fidélisation plus élevé que la variante de contrôle parce que les utilisateurs ont plus d'argent à dépenser pour progresser dans le jeu ?
- Le fait d'offrir aux utilisateurs un solde de départ plus élevé les incite-t-il à dépenser plus d'argent ?
- Les utilisateurs se convertissent-ils plus rapidement en dépensiers lorsqu'ils disposent d'un solde de départ plus élevé ?
Il est essentiel de poser ces questions et de comprendre l'impact du traitement sur les utilisateurs pour comprendre le comportement de ces joueurs et savoir comment optimiser l'expérience de ces utilisateurs.
Conseils intermédiaires pour les tests A/B
La signification statistique est le niveau de confiance qu'un test A/B fournit des données exactes et n'est pas influencé par des facteurs extérieurs. La première étape du calcul de la signification statistique consiste à formuler une hypothèse nulle et une hypothèse alternative.
- Hypothèse nulle (H0) : Une déclaration selon laquelle le changement n'a pas eu d'effet sur le groupe d'échantillonnage et est supposé être vrai.
- Hypothèse alternative (Ha) : Une prédiction que votre traitement aura sur l'échantillon donné.
Une fois que vous avez choisi vos hypothèses, vous pouvez alors choisir votre niveau de signification (α) qui est la probabilité de rejeter l'hypothèse nulle. Le niveau de signification standard à viser est de 0,05, ce qui signifie que vos résultats ont une probabilité inférieure à 5 % que l'hypothèse nulle soit vraie.
L'étape suivante consiste à trouver votre valeur de probabilité (valeur p), qui détermine la probabilité que vos données soient comprises dans l'hypothèse nulle. Plus la valeur p est faible, plus vos résultats sont statistiquement significatifs.
Si votre valeur p est supérieure au seuil de signification, la probabilité est trop élevée pour rejeter l'hypothèse nulle et vos résultats ne sont donc pas statistiquement significatifs.
Si votre niveau p est inférieur au niveau de signification, il y a suffisamment de preuves pour rejeter l'hypothèse nulle et accepter l'hypothèse alternative, ce qui signifie que nos résultats sont statistiquement significatifs.
Un test A/B statistiquement significatif indique que notre expérience a été concluante et que vous pouvez en toute confiance apporter des modifications basées sur notre test afin d'optimiser notre application.
Une expérience de test A/B très courante à réaliser au début de la vie des jeux consiste à tester différentes expériences de première utilisation afin d'augmenter la rétention des joueurs (D1, D3, D7). La FTUE d'un jeu est importante pour embarquer les utilisateurs et les intéresser à votre application.
Le public : Nouveaux utilisateurs Variante A (variante) : FTUE normale (10 étapes) Variante B (contrôle) : FTUE courte (5 étapes) KPI à mesurer: Taux de rétention (D1, D3, D7)
De nombreux jeux et applications de services en direct proposent aux utilisateurs des achats in-app (IAP) qui permettent de distribuer du contenu et de générer des revenus pour le développeur. Un exemple courant consiste à tester différents prix pour une offre groupée IAP telle qu'une offre groupée d'objets (offre groupée à 5 $ contre offre groupée à 20 $). Il est également possible d'avoir le même prix mais des contenus différents dans l'offre groupée.
Le public : Variante A (activée) : Offre groupée de 5 $ Variante B (contrôle) : Offre groupée de 20 $ KPI à mesurer : ARPDAU (revenu moyen par utilisateur moyen quotidien), LTV (valeur à long terme)
DO :
Effectuez toujours un test A/B. Vous devriez toujours avoir au moins un test A/B en cours d'exécution afin de ne pas perdre de temps et de trouver de nouvelles façons d'optimiser votre application.
Effectuer des tests sur différents paramètres. Lorsque vous expérimentez, veillez toujours à tester différentes variables que vous pouvez optimiser en utilisant des tests A/B distincts pour chacune d'entre elles. Il peut s'agir de la difficulté, des récompenses publicitaires, de la synchronisation des notifications push, etc.
Veillez à ce que vos groupes de variables aient des tailles d'échantillon similaires. Si la taille de vos échantillons est trop différente d'un groupe à l'autre, vous obtiendrez des résultats inexacts. Les traitements appliqués à ces échantillons risquent d'être inadéquats.
NE LE FAITES PAS :
Tester trop de variables en même temps. Si vous effectuez trop de tests A/B en même temps, vos résultats seront faussés car les différents tests peuvent s'influencer directement les uns les autres.
Les tests sont trop courts. Une erreur fréquente consiste à arrêter un test trop tôt alors que les données ne sont pas suffisantes et peuvent être affectées par une grande variété de facteurs. Un événement du jeu qui se déroule au milieu de votre expérience peut grandement influencer vos résultats, entraînant une faible signification statistique et des données moins fiables.
N'ayez pas peur d'aller plus loin dans vos expériences. Réduire votre public cible à un niveau plus fin peut s'avérer très efficace à condition de disposer d'une hypothèse bien pensée et d'un échantillon de taille suffisante pour fournir des résultats précis.