중앙값(median)과 최빈값(mode)

 

지난 포스트에서 일부 극한값 때문에 평균값이 무너지는 현상이 발생하여 이상치와 편향을 확인하여 극단적인 값으로 인한 평균이 무너지는 구간을 파악할 수 있었다.

 

편향된 데이터와 이상치 때문에 왜곡된 정보가 제공된다면 전형적인 값을 파악하기 위해 중앙값과 최빈값을 이용해야 한다.

 

중앙값(median)이란 무엇인가?

중앙값은 데이터를 나열하였을 때(오름차순) 가운데 있는 값을 뜻한다.

데이터가 홀수면 가운데 값이 중앙값이 된다.

19

18

20

20

20

21

21

100

102

 

데이터가 짝수면 가운데 있는 두수의 평균값이 중앙값이 된다.

18

20

20

20

21

21

100

102

     

20.5

     

 

 

아래와 같은 데이터가 있을 때 평균값, 편향, 중앙값에 대해서 알아보자.

 

[오른쪽 편향]

1

2

3

4

5

6

7

8

도수

4

6

4

4

3

2

1

1

 

  • 데이터 개수 : 25개 (데이터를 한 줄로 나열해본다.)
  • 평균값 : 3.44 ((4+12+12+16+15+12+7+8)/25)
  • 중앙값 : 3

 

데이터를 그래프로 그려보면 다음과 같이 오른쪽으로 편향되어 나타나며 평균값은 중앙값의 오른쪽(높음)에 위치한다.

 

 

 

[왼쪽 편향]

1

4

6

8

9

10

11

12

도수

1

1

2

3

4

4

5

5

 

  • 데이터 개수 : 25개 (데이터를 한 줄로 나열해본다.)
  • 평균값 : 9.28 ((1+4+12+24+36+40+55+60)/25)
  • 중앙값 : 10

 

데이터를 그래프로 그려보면 다음과 같이 왼쪽으로 편향되어 나타나며 평균값은 중앙값의 왼쪽(낮음)에 위치한다.

 

이처럼 중앙값을 사용하면 이상치로 인한 편향된 데이터에서 평균값이 높은지 낮은지 판별할 수 있다. 중앙값으로도 왜곡이 발생할 경우 최빈값을 이용할 수 있다.

예를 들어 아래와 같은 데이터가 있을 때 중앙값은 16.5가 된다. 데이터에 2 또는 31이 추가되면 중앙값은 2 또는 31이 된다.

1

2

2

2

31

32

32

32

     

16.5

     

 

 

최빈값(mode)이란 무엇인가?

최빈값은 데이터 집합에서 가장 많이 나타나서 도수가 가장 높은 값을 뜻한다. 최빈값이 하나 이상일 수도 있다. 어느 집합이 두 개의 최빈값을 가지고 있다면 이봉(bimodal)이라고 한다.

 

아래와 같은 데이터는 전체를 대표할 수 있는 값이 존재하지 않는다. 대신 각 종류의 데이터 집합에 대한 최빈값이 무엇인지 알 수 있다. 데이터에서는 두 개의 최빈값(2, 32)이 존재한다

1

2

3

31

32

33

도수

3

4

2

2

4

2

 

 

최빈값은 수치적 데이터만을 위해 사용되는 것은 아니다. 범주적 데이터를 위해서도 사용될 수 있으며 범주적 데이터를 위해 사용할 수 있는 유일한 평균값이다. 최빈값은 범주적 데이터를 다룰때 가장 흔히 사용하는 범주 중 하나이다.

 

게임으로 돌아와서 동접지표 분석할 때 평균 플레이 타임에 대한 왜곡에 대해서 설명하였다. 이상치와 편향으로 통계적 오류를 최소화 할 수 있었지만 1인당 플레이 시간에 대한 범주가 고르지 못하다면 최빈값등을 이용해서 각 범주를 대표할 수 있는 값을 함께 분석해보면 좋을 듯 하다.

 

 

 

게임마케팅, 게임용어, 마케팅 용어, 게임기획, 게임 분석, 게임이야기, 마케팅이야기, 게임분석, 기획자를 위한 게임 분석, 데이터분석, 데이터분석가, 게임분석가, 매출분석, 아이템분석

이상치(Outlier)와 편향(Skew)

 

지난 포스트에서 "특정 헤비한 유저로 인한 통계 수치가 무너지지 않았는지 살펴보아야 한다. 평균은 항상 전체대비 나타내기 때문에 일부 이상치 때문에 무너지는 경우가 많기 때문이다."라고 하였다.

 

이상치(Outlier)때문에 평균이 무너지는 경우가 어떤 뜻인지 알아보자.

 

이상치는 극단치, 이상점이라고 쓰이기도 하며 그 의미는 각 변수의 분포에서 비정상적으로 극단값을 갖는 경우나 비현실적 변수값들을 뜻한다. 즉 극단적적인 값을 이상치라고 한다. 예를 들어 아래와 같은 히스토그램의 평균값은 약 51.3의 값을 나타낸다. 대부분의 분포는 44~50 사이에 존재하지만 72에 있는 값도 무시할 수는 없다. 전형적인 분포에 비해 지나치게 높은 값이 존재하면서 평균값이 상승하면서 왜곡이 된다.

 

데이터에 포함된 이상치 때문에 평균값이 상승(또는 하락)된 현상을 보이면 데이터가 편향(skew)되었다고 한다. 편향된 데이터는 크게 3가지가 있다.

편향

설명

왼쪽으로 편향 : 이상치들의 꼬리가 왼쪽으로 길게 나타나며 평균값을 왼쪽으로 잡아끈다. 이런 상황에서는 평균값이 대부분의 값보다 낮다.

좌우 대칭 데이터 : 이상적인 경우 데이터가 좌우 대칭을 형성한다. 데이터가 좌우 대칭이면 평균값은 가운데 위치한다. 좌우에 형성되는 차트의 모양이 중앙을 중심으로 동일하다.

오른쪽 편향 : 이상치들의 꼬리가 오른쪽으로 길게 나타나며 평균값을 오른쪽으로 잡아끈다. 이런 상황에서는 평균값이 대부분의 값보다 높다.

 

 

이게 게임으로 돌아와서 하루동안 게임을 이용한 유저들의 1인 평균 플레이타임(TS)을 살펴보자. DAU가 1,000명이고 TS가 2시간이라고 하였을 때 평균값인 TS를 보면 꽤 괜찮은 지표일 수 있다. 하지만 분명 1000명에는 1분 이하의 플레이유저, 3시간 이상 플레이 유저, 23시간 이상 플레이 유저가 등 다양하게 모두 섞여있다. 결국 데이터의 분포에 따라 평균값은 왜곡될 수 밖에 없다. 이런 경우 평균값 외에 편향을 확인하여 극단적인 값으로 인한 평균값이 무너지는 구간을 잘 파악해야할 필요가 있다.

 

편향된 데이터와 이상치 때문에 왜곡된 정보가 제공된다면 전형적인 값이 무엇인지 파악하기 위해 중앙값등을 사용할 수 있다.

 

 

 

 

게임마케팅, 게임용어, 마케팅 용어, 게임기획, 게임 분석, 게임이야기, 마케팅이야기, 게임분석, 기획자를 위한 게임 분석, 데이터분석, 데이터분석가, 게임분석가, 매출분석, 아이템분석

동접(동시접속자) 지표 분석

 

지난 포스트에서 사용자 지표 분석과 매출 지표 분석에 대해서 살펴 보았다.

 

이번 포스트에서는 동접(동시 접속자) 지표에 대한 분석에 대해서 알아본다.

  • CCU (Concurrent User) : 특정 시점에 접속한 동시 접속자 수
  • MCU (Maxium Concurrent User) : 하루 동안 가장 높은 동시 접속자 수치.
  • PCU (Peak Concurrent User) : MCU 동일어
  • ACU (Average Concurrent User) : 1일 동안의 평균 동시 접속자 수
  • Stickness : 고착도 (DAU/MAU)/100
  • MTS (Mutigame Time Spent): 해당 기간 동안의 평균 실제 플레이 타임
  • TS(Time Spent) : 해당기간 동안의 유저1인당 플레이 타임

 

동접자 지표 분석을 하려면 주기적으로 현재 게임을 플레이하고 있는 유저의 수를 기록해야 한다. 이때 동접을 기록하는 주기의 간격은 짧을수록 흐름을 파악하는데 정확한 통계를 제공하지만 시스템 부하 및 특성을 감안하여 적당한 시간 간격을 유지하도록 한다. 통상적으로 대부분 업계에서는 기록 주기를 5분간격으로 가장 많이 사용한다. 동접을 기록하기 위해서는 기본적으로 기록시간, 서버, 동시접속 수 정보가 필요하다.

 

기본적인 테이블 스키마는 다음과 같다. 이때 유연성을 고려하여 우측보다는 좌측의 스키마 구조를 사용할 것을 권장한다.

 

 

좌측의 스키마 구조로 설계하였을 경우에는 데이터가 다음과 같이 적재된다. 예를 들어 서버가 3대라면 5분 단위로 각 서버당 1ROW씩 총 3개의 ROW가 생성된다.

 

우측의 스키마 구조로 설계하였을 경우에는 이미 3개 서버의 구조가 만들어져 있으므로 5분당 1ROW가 생성된다.

 

언뜻 보기에는 우측의 스키마 구조가 보기에도 편하고 서로 비교하기에도 편해보이지만 만약 여기에서 서버가 한대 또는 그이상 추가된다면 어떻게 될까?

  1. 좌측의 구조에서는 스키마 변경없이 기록시간, 서버명4, 동시접속 수 그대로 기록하면 된다.

 

  1. 우측의 경우에는 스키마 구조가 서버 수에 따라 변경되어야 한다. 스키마가 변경되면 데이터를 기록하기 위한 쿼리(소스코드)도 변경이 발생한다.

 

데이터구조의 유연성을 위해 좌측처럼 설계하고 실제 사용자에게 보여줄 때 피벗을 사용해서 보기 편한 방법으로 표현하면 된다. (웹으로 따지면 MVC 개념이랄까..아니면 말고..)

 

동접에 대한 기록은 보통 게임서버들이 담당한다. 현재 게임서버에 접속되어 있는 유저의 세션을 파악하여 기록하기 때문에 가장 정확하다고 할 수 있다.

 

다음 분석은 지극히 개인적인 생각이므로 분석에 대한 의견은 덧글로 나눌 수 있으면 좋을 듯하다.

 

동시 접속자수가 높다는 뜻은 그만큼 많은 사용자가 게임을 즐기고 있다는 뜻으로 매우 긍정적인신호이다. 특히 시간에 따른 동접 지표는 게임의 특성, 유저의 연령층, 게임의 장르에 따라 영향을 많이 받기 때문에 지표 그래프가 매우 다양하게 표현된다. 동시 접속의 패턴으로는 고연령 위주의 게임일수록 ACU가 높으며 저연령 일수록 MCU가 높은 성향을 나타낸다.

 

게임 동접 지표를 보면 쌍봉차트라고 하여 특별히 지표가 높은 구간이 있다. 예를 들어 아래와 같은 동접 지표 (이해를 돕기 위해 주식차트를 가져왔음, X축과 Y축의 수치는 무시함)가 있다고 가정할 때 하루 동안의 동접 지표 추이를 나타낸 것이다.

 

아래 그림으로는 하루에 두 번의 PCU를 확인할 수 있는데 게임의 장르 또는 게임을 즐기는 연령층에 따라 다른 시간대에 상승지표가 나타날 것이다. 어린이들이 이용하는 게임이라면 학교를 마치고 학원가기 전의 시간(13시~ 15시) 그리고 학원을 마치고 저녁식사 (17~19시)까지가 높은 지표를 나타낼 것이다. 성인이 즐기는 게임은 똑같은 쌍봉이라도 시간대가 다를 수 있다. 일반적으로 직장인들이기 때문에 (물론 아닐수도….시무룩….) 출근 전 (7~9시), 퇴근(야근) 후 (22~24시) 취침까지가 높을 것이다.

 

 

위와 같은 형태의 지표는 PC 게임이 주류일때의 패턴이다.(물론 인기 좋은 게임은 그래프가 거의 일정할 것이다. 부럽…).

PC 게임의 경우에는 환경적 제약이 있으므로 PC를 사용할 수 있는 시간이 제한적이기 때문이다.

 

 

최근에는 모바일 게임이 대세로 자리 잡으면서 접속 환경에 대한 제약이 완화되었고 게임의 장르 또한 라이트한 게임부터 기존의 MMORPG같은 헤비한 게임까지 다양하게 즐기고 있어 동접지표는 과거와는 다른 형태로 나타난다.

주변을 둘러보면 지하철, 버스 등 이동할때 게임을 즐기는 사람을 많이 보았을 것이다. 직장인의 경우 출, 퇴근 시간에 게임을 많이 하기 때문에 기존 PC 게임과는 다른 시간대의 지표를 나타낸다.

 

모바일 게임의 경우 특히 라이트한 게임의 경우에는 동접외에도 재방문율, 1인당 플레이 타임을 함께 분석해야 한다. 라이트한 게임은 잠깐 잠깐 즐길 수 있는 게임이기에 수시로 접속자가 로그인과 로그아웃을 반복한다. 재미있는 게임이라면 1일 동안에도 재방문율이 매우 높을 것이다.

 

팡류 또는 런류 등의 라이트한 게임에서는 CU보다 고착률((DAU/MAU)*100)으 지표가 중요하다.

 

동접과 DAU, 그리고 플레이 타임을 종합적으로 비교해 볼 때 DAU가 높은 반면 플레이타임이 적다면 접속만 유지된 상태로 아무 행동을 하지 않는 유령 유저 가능성이 높다.

 

그리고 어떤 게임인지 호기심에 일회성 방문일 가능성이 있으므로 1인당 플레이타임을 관심있게 확인해야 한다. (그래서 유저당 플레이 시간도 주기적으로 기록해주어야 한다. 이때 유저가 활동중이라는 것을 알 수 있는 의미있는 행동을 할 때 같이 기록하는 것이 좋다. 예를 들면 필드 이동 또는 전투 등)

 

TS(Time Spent, 플레이타임)가 낮은 경우 게임에 체류하는 시간이 짧음으로 오랫동안 머무르게 할 수 있는 콘텐츠 개발이 필요하다. TS가 과도하게 높은 경우에는 특정 헤비한 유저로 인한 통계 수치가 무너지지 않았는지 살펴보아야 한다. 평균은 항상 전체대비 나타내기 때문에 일부 이상치 때문에 무너지는 경우가 많기 때문이다. MTS(평균 플레이 타임)가 높은 경우에는 하드코어한 유저가 생성되고 컨텐츠 소모가 빠르게 진행됨을 암시한다.

 

 

동접 지표는 게임의 성공여부를 판단하는 가장 기본적이면서도 신뢰하는 통계이기 때문에 (플레이를 해야 아이템을 구매하고 수익으로 이어지는 아름다운 선순환 구조^^) 동접, DAU, 플레이타임을 잘 분석하여 콘텐츠 개발 및 마케팅에 잘 활용해야 한다.

 

게임마케팅, 게임용어, 마케팅 용어, 게임기획, 게임 분석, 게임이야기, 마케팅이야기, 게임분석, 기획자를 위한 게임 분석, 데이터분석, 데이터분석가, 게임분석가, 매출분석, 아이템분석

'게임 기획자를 위한 통계학' 카테고리의 다른 글

중앙값(median)과 최빈값(mode)  (0) 2015.07.16
이상치(Outlier)와 편향(Skew)  (0) 2015.07.16
동접(동시접속자) 지표 분석  (0) 2015.07.16
매출 지표 분석  (0) 2015.07.16
사용자 지표 분석  (0) 2015.07.16
게임 마케팅 용어 정리  (0) 2015.07.16

매출 지표 분석

 

지난 포스트에서 사용자 지표 분석에 대해서 살펴 보았다.

 

이번 포스트에서는 매출 지표에 대한 분석에 대해서 알아본다.

  • BU (Buying user) : 구매유저, 일정기간내에 게임에 아이템 구매, 월정액 결제 등 돈을 지불한 유저
  • PU (Paying User) : BU 동일어
  • BU rate = BU/UV (순방문자대비 결제 유저 비율)
  • CAC(Customer Acquisition Cost) : 유저 확보 비용으로 유저 1인을 확보하는데 소모되는 비용
  • CRC (Customer Retention Cost) : 유저 유지 비용으로 일정기간 내에 유저1인을 유지하는데 소모되는 비용
  • ARPU (Average Revenue Per User) : 일정 기간 내 유저 1인당 평균 수입
  • ARPPU (Average Revenue Per Paying User) : 일정기간 내에 게임에 비용을 지불한 유저의 1인당 평균 수입
  • PPU (Percentage of Paying Users) : DAU 내에서 결제한 비율 또는 비율
  • LTV (Life time value) : 유저 1인당 게임에서 완전히 이탈할 때까지 지불하는 비용
  • Entry Cost : 여러 가지 가격대의 상품을 제공할 때 유저의 최초 구매가 어떤 가격대에서 많이 일어나는지 측정
  • Sales by Purchase : 사용자의 구매 활동을 통해 집계된 매출

 

매출 지표 분석을 하려면 기본적으로 상품 정보와 결제 정보가 필요하다. (DW에서는 아래와 같은 테이블 스키마 형식이 아닌 집계 및 분류가 편하도록 스타스키마나 스노우플레이크 스키마를 사용한다)

 

상품 테이블은 상품에 대한 정보를 가지고 있다. 상품 테이블을 관리할 때 주의할 점은 동일한 아이템을 이벤트 형식으로 팔거나 가격 변동이 있을 때 기존의 상품에 대한 가격을 수정하는 것이 아닌 새로운 상품 번호를 발급받아 관리해야 한다. 예를 들면 아래와 같이 동일한 방패에 대해서도 이벤트 아이템 또는 가격이 변동되었을 때 새로운 상품 번호를 부여한다.

상품번호

상품명

상품가격

1

꽃무니 방패

500원

2

꽃무니 방패(이벤트)

300원

3

꽃무니 방패

600원

 

동일한 상품이라도 이렇게 관리해야 추후 매출을 집계하거나 과거 매출에 대한 정산을할 때 상품 가격변동으로 인해서 재무가 변동되는 상황을 막을 수 있다.

 

환불의 경우도 마찬가지이다. 환불이 발생하였을 때 결제정보에서 결제 데이터를 삭제하는 것이 아닌 환불 결제로 기록해야 한다. 환불이 발생하였다고 기존 결제 정보 데이터를 삭제하면 월 또는 분기 시 매출 건수 변동 및 매출액 변동이 발생하기 때문이다. 이는 재무처리를 하는데 있어서 매우 민감한 사항이다.

결제날짜

회원번호

상품번호

거래번호

2015-06-05 14:58

1

1

TX_정상거래

2015-06-05 15:00

3

2

TX_정상거래

2015-06-09 112:00

1

1

TX_환불거래

 

 

위 결제 정보를 이용해서 몇 가지의 정보를 만들 수 있을까?

  • 1일 매출 건수 : 1일 동안 발생한 결제 횟수 합산
  • 1일 매출 액 : 1일 동안 발생한 결제 금액 합산
  • 시간별 매출액 : 시간 별로 매출액 합산
  • 1일 결제유저 수 : 중복 사용자 제외한 결제 유저 수
  • 상품별 매출 건 수 : 상품별 구매 건수
  • 상품별 매출 액 : 상품별 구매 액수

대략 이정도 나올 것이다. 참고로 상품별 매출을 집계할 때 아이템 항목명을 기준으로 하면 너무 많은 분류로 세분화 되므로 무기구, 방어구 이런식으로 대분류 또는 중분류까지만 차원을 정하는것이 좋다.

 

여기에 회원정보(성별, 나이, 캐릭터종류(기사, 마법사 등), 캐릭터 레벨)를 더하면 어떻게 될까?

  • 남/여 따른 매출 금액
  • 연령에 따른 결제 금액 (아이템 가격 책정 시 중요한 정보가 됨)
  • 캐릭터 종류에 따른 선호 아이템 (캐릭터에 따라 선호 아이템이 다름)
  • 레벨에 따른 선호 아이템 (특정 레벨에서 많이 구입하는 아이템을 파악하여 물량 조절)

 

여기에서도 레벨의 경우 1레벨씩 세부 구간보다는 기획자의 의해 의미있는 구간(1 ~10, 11~30, 31~40 이런식으로)을 정하여 확인할 수 있도록 한다.

 

이처럼 다양한 조합이 가능하게 된다. 지난 포스트에도 이야기 하였듯이 데이터를 교차하여 다양한 통계를 만들어 낼 수 있다.

 

 

다음 분석은 지극히 개인적인 생각이므로 분석에 대한 의견은 덧글로 나눌 수 있으면 좋을 듯하다.

 

1. BU rate = BU/UV (순방문자대비 결제 유저 비율)가 높다는 뜻은?

BU Rate가 높다는 것은 게임을 즐기는 유저가 결제를 많이 한다는 뜻으로 수익구조가 안전하다는 것을 뜻한다.

 

1. ARPU (Average revenue per user) 높다는 뜻은?

ARPU는 [총 매출 / 총 유저수]로 나눈 것으로 1인당 객단가의 지표이다. ARPU가 높다는 것은 기존 고객이 충실히 결제를 하고 있기 때문에 신규 고객을 유치하기 위한 마케팅 부담을 덜 수 있어 고객 유지비용이 줄어든다.

 

1. ARPPU (Average revenue per paying user) 높다는 뜻은?

ARPPU는 일정 기간 내에 게임에 접속한 유저 중 비용을 지불한 유저의 평균 수입으로 일 매출로 구분하였을 때에는 [1일 매출 / DAU]로 나누어 산출 한다. ARPPU가 높다는 것은 결제 유저의 충성도가 높다는 것으로 긍정적인 신호이다. 특히 하드코어한 게임일수록 높게 나타난다. 하지만 ARPPU의 높고 낮음으로 게임이 잘 돌아간다고 판단하면 위험하다. 이 수치는 결제 금액도 중요하지만 DAU에 따라 비율이 급격히 변하므로 요즘처럼 수백만 DAU가 신기하지 않는 시대에 ARPPU가 높고 낮음에 따라 반응하는 것은 눈앞의 현상에만 집착하는 것에 불과하기 때문이다. 특히 슈퍼유저의 경우 1인당 결제 금액이 매우 크지만(80/20법칙) 라이트한 유저의 결제 때문에 전체 평균이 무너져 통계 오류가 발생하기 때문이다.

 

ARPU경우에는 휴면유저(장시간 게임을 접속하지 않은 유저)까지 포함되어 시간이 지날수록 하향 곡선을 그리며 휴면 유저(아마 대부분 유저는 휴면 계정일 것이다.)로 인해 통계가 무너지는 상황이 발생하여 대부분의 마케터 및 기획자들은 ARPPU와 BU rate를 통해 마케팅 및 업데이트 방향을 정한다.

 

1. CAC(customer acquisition cost)가 높다?

CAC는 광고, 이벤트 등으로 신규 유저를 확보하거나 휴먼유저(분석에서는 장기간의 휴면 유저가게임을 다시 할경우 신규 유저로 분류한다.)를 다시 게임에 유입시키기 위한 활동이다. CAC가 높다는 뜻은 유저 1인을 확보하는데 소모되는 비용이 높다는 뜻으로 비용대비 효과가 크지 않다는 것을 뜻한다. 하지만 최근 TV광고나 연예인등을 섭외하여 광고 제작비가 높게 책정되어 CAC는 매우 높게 나타나고 있는 추세이다. 최근에는 CAC 비율을 낮추기 위해 SNS 마케팅, 타겟 마케팅을 사용자를 구분하여 매우 정교하게 마케팅을 한다.

 

1. CRC (customer retention cost)가 높다?

CRC는 일정 기간 내 유저1인을 유지하는데 소모되는 비용으로 쉽게 말하면 유저 1명을 케어하기 위해 드는 관리비용이다. CRC가 높다는 것은 상대적으로 물건을 팔았을 때 이익이 많지 않다는 뜻이다. 여기에는 서버임대료, 관리비, 전기세, 운영자 비용, 개발비(게임은 계속해서 컨텐츠가 업데이트 되므로) 등이 포함된다.

 

실질적인 수익은 LTV(Life time value, 유저가 게임에서 이탈 할 때까지 발생한 비용) – (CRC+CAC) 로 산출한다.

 

 

게임마케팅, 게임용어, 마케팅 용어, 게임기획, 게임 분석, 게임이야기, 마케팅이야기, 게임분석, 기획자를 위한 게임 분석, 데이터분석, 데이터분석가, 게임분석가, 매출분석, 아이템분석

+ Recent posts