게임에 A/B 테스트를 적용하는 방법
A/B 테스트 소개
A/B 테스트는 실험과 세심한 데이터 분석을 통해 다양한 방식으로 앱을 최적화하고 개선하는 효과적인 방법입니다.
A/B 테스트의 기본 개념은 유사한 사용자 변형을 비교하고 대조하되 각 변형에 대해 서로 다른 최적화를 제공하여 앞으로 어떤 변경 사항을 적용할지 결정하는 것입니다. 이상적으로 A/B 테스트는 두 가지 이상의 실험 버전을 비교하여 어느 버전이 더 나은지 확인하는 데 사용됩니다.
두 가지 변형을 비교할 때 흔히 A 변종과 B 변종이라고 합니다. 데이터를 왜곡할 수 있는 모든 유형의 편향을 방지하기 위해 각 변형에 사용자가 무작위로 할당됩니다.
여기에는 실험을 시작하기 직전에 사용자에게 게임을 사용해 볼 수 있는 재화를 제공하는 소셜 미디어 캠페인과 같이 테스트 결과에 영향을 줄 수 있는 변수를 기반으로 한 사전 테스트 편향이 포함될 수 있습니다. 이 사용자 집단은 테스트에 영향을 미쳐 왜곡된 결과를 제공할 수 있습니다.
A/B 테스트를 통해 직감이 아닌 데이터에 기반한 현명한 의사 결정을 내릴 수 있습니다. 앱을 최적화하는 데 필요한 변경 사항을 자신 있게 적용하려면 데이터로 근거를 제시할 수 있어야 합니다.
테스트 규모에 따라 A와 B 변종만 테스트할 수 있는 것이 아니라 그 이상을 테스트할 수 있습니다. 더 많은 변형을 포함하도록 테스트를 조정할 수 있습니다. 그러나 오디언스를 더 많은 변형으로 나누려면 통계적 유의성을 확보하기 위해 테스트 기간을 연장해야 하며, 그렇지 않으면 샘플 부족으로 인해 데이터가 희석될 위험이 있습니다.
A/B 테스트를 활용하는 가장 일반적인 원인은 다음과 같습니다:
- 특정 플레이어 행동(지출 습관, 플레이 습관, 리텐션 등) 극대화하기
- 사용자의 성능과 채택률을 최적화하기 위한 신규 및 기존 기능 테스트
- 특정 사용자 흐름 개선(FTUE, 스토어 사용자 흐름, 레벨 진행, 보상 속도 등)
데이터와 시간을 적절히 활용하려면 각 A/B 테스트의 목표를 정의하는 것이 중요합니다. 각 실험의 비즈니스 목표가 명확해야 앱 최적화를 위한 이니셔티브를 추진하는 데 유용한 데이터를 제공하는 KPI를 측정할 수 있습니다.
인앱 A/B 테스트의 한 가지 예는 신규 플레이어의 시작 통화 잔액을 테스트하는 것입니다. 실험은 다음과 비슷할 수 있습니다:
오디언스: 신규 사용자 변형 A(활성화됨): 100 골드 변형 B(대조군): 0 골드 측정할 KPI: 잔존율(D1, D3, D7, D30), ARPDAU 및 전환율
대조군은 테스트의 대상 기준과 일치하지만 치료의 영향을 받지 않는 사용자의 하위 집합입니다. 이 그룹의 중요성은 팀이 A 및 B 변형을 사용하여 측정된 모든 상승 또는 하락을 명확하게 볼 수 있도록 하는 것입니다. 테스트 전에 설정한 KPI가 이러한 변경 사항을 결정하는 데 도움이 됩니다.
시간 경과에 따른 테스트 그룹의 변화를 대조군의 지표와 비교함으로써 결과에 영향을 미칠 수 있는 외부 요인으로 인한 KPI의 영향을 분리할 수 있다는 점에 유의해야 합니다.
유니티 게임 서비스에서는 게임 오버라이드 시스템을 사용하여 A/B 테스트 캠페인을 생성할 수 있습니다. 단계별 가이드는 여기에서 확인할 수 있습니다. 앞으로 몇 달 동안 더 많은 팁이 추가될 예정이니 이 페이지를 꼭 확인하세요.
이 테스트를 실행한 후 데이터를 분석하여 이러한 변형의 각 동작이 다양한 시작 밸런스에 의해 어떻게 영향을 받는지, 그리고 측정하려는 KPI에 미치는 영향을 확인할 수 있습니다.
위의 예시를 바탕으로 변형 A가 KPI에 긍정적인(또는 부정적인) 영향을 미치는지 확인하고자 합니다. 결과를 검토할 때 스스로에게 물어볼 수 있는 몇 가지 질문은 다음과 같습니다:
- 사용자가 게임 진행을 위해 더 많은 재화를 소비하기 때문에 변형 A가 통제에 비해 더 높은 리텐션율을 제공하나요?
- 사용자에게 더 높은 시작 잔액을 제공하면 더 많은 돈을 쓰도록 인센티브를 제공하나요?
- 사용자가 시작 잔액이 높을 때 더 높은 비율로 지출자로 전환되고 있나요?
이러한 질문을 던지고 치료가 사용자에게 미치는 영향을 이해하는 것은 이러한 플레이어의 행동을 이해하고 이러한 사용자의 경험을 최적화할 수 있는 방법을 파악하는 데 필수적입니다.
A/B 테스트를 위한 중급 팁
통계적 유의성은 A/B 테스트가 정확한 데이터를 제공하고 있으며 외부 요인에 영향을 받지 않는다는 신뢰 수준입니다. 통계적 유의도를 계산하는 첫 번째 단계는 귀무가설과 대안 가설을 세우는 것입니다.
- 귀무가설(H0): 변경 사항이 샘플 그룹에 영향을 미치지 않았으며 사실로 가정한다는 진술입니다.
- 대체 가설(Ha): 주어진 샘플에 대해 치료가 어떤 영향을 미칠지 예측합니다.
가설을 선택한 후에는 귀무 가설을 기각할 확률인 유의 수준(α) 을 선택할 수 있습니다. 목표로 삼아야 하는 표준 유의 수준은 0.05로, 귀무가설이 참일 확률이 5% 미만인 결과를 의미합니다.
다음 단계는 귀무 가설 내에서 데이터가 발생할 확률을 결정하는 확률 값(p값) 을 구하는 것입니다. p값이 낮을수록 통계적으로 유의미한 결과를 얻을 수 있습니다.
p값이 유의 수준보다 크면 확률이 너무 높아서 귀무가설을 기각할 수 없으므로 결과가 통계적으로 유의하지 않은 것입니다.
p-레벨이 유의 수준보다 낮으면 귀무가설을 거부하고 대안 가설을 받아들이기에 충분한 증거가 있으며, 이는 결과가 통계적으로 유의하다는 것을 의미합니다.
통계적으로 유의미한 A/B 테스트는 실험이 성공적이었다는 것을 의미하며, 테스트를 기반으로 앱을 최적화하기 위해 자신 있게 변경할 수 있습니다.
게임 초반에 수행하는 매우 일반적인 A/B 테스트 실험은 플레이어의 초기 리텐션을 높이기 위해 다양한 최초 사용자 경험(FTUE)을 테스트하는 것입니다(D1, D3, D7). 게임의 FTUE는 사용자를 온보딩하고 앱에 관심을 갖도록 하는 데 중요합니다.
오디언스: 신규 사용자 변형 A(변형): 일반 FTUE(10단계) 변형 B(제어): 측정할 짧은 FTUE(5단계) KPI: 리텐션율(D1, D3, D7)
많은 라이브 서비스 게임과 앱에는 개발자의 콘텐츠 및 수익 분배를 위해 사용자가 사용할 수 있는 인앱 구매(IAP)가 있습니다. 한 가지 일반적인 예는 아이템 번들(5달러 번들 대 20달러 번들)과 같이 IAP 번들에 대해 서로 다른 가격대를 테스트하는 것입니다. 또는 가격대는 같지만 번들 내 콘텐츠가 다른 경우도 있습니다.
오디언스: 지출자 변형 A(활성화됨 ): 5 번들 변형 B(제어 ): 20 번들 측정할 KPI: ARPDAU(일일 평균 사용자당 평균 매출), LTV(장기 가치)
DO
항상 A/B 테스트를 실행하세요. 시간을 낭비하지 않고 앱을 최적화할 수 있는 새로운 방법을 찾을 수 있도록 항상 하나 이상의 A/B 테스트를 항상 실행해야 합니다.
다양한 메트릭에 대한 테스트를 수행합니다. 실험할 때는 항상 최적화할 수 있는 다양한 변수를 테스트하고 각 변수에 대해 별도의 A/B 테스트를 사용하세요. 여기에는 난이도, 광고 보상, 푸시 알림 타이밍 등이 포함될 수 있습니다.
변수 그룹의 샘플 크기가 비슷한지 확인하세요. 그룹 간 샘플 크기가 너무 다르면 부정확한 결과를 얻을 수 있습니다. 이러한 샘플에 대해 실행되는 모든 처리는 적절하지 않을 수 있습니다.
DON'T:
너무 많은 변수를 동시에 테스트합니다. 동시에 너무 많은 A/B 테스트를 수행하면 서로 다른 테스트가 서로에게 직접적인 영향을 미칠 수 있으므로 결과가 혼탁해질 수 있습니다.
테스트를 너무 짧게 실행합니다. 데이터가 충분하지 않고 다양한 요인에 의해 영향을 받을 수 있는 경우 테스트를 너무 일찍 중단하는 것이 일반적인 실수입니다. 실험 도중에 실행되는 게임 내 이벤트는 결과에 큰 영향을 미쳐 통계적 유의성이 낮아지고 데이터의 신뢰성이 떨어질 수 있습니다.
실험을 더 세분화하는 것을 두려워하지 마세요. 가설을 잘 세우고 정확한 결과를 제공할 수 있을 만큼 충분한 표본 크기를 확보하고 있다면 타겟 고객을 보다 세분화된 수준으로 좁히는 것이 매우 효과적일 수 있습니다.