범위(Range)와 사분위수(Quartile)

 

평균은 데이터의 중심이 어디쯤에 있는지 알려 주지만 데이터가 어떤 식으로 변화하는지에 대해서는 알려주지 않는다. 점수가 평균을 중심으로 어떻게 분포되어 있는지 살펴봄으로써 데이터를 구분할 수 있다.

 

아래 3개의 도표는 모두 동일한 평균값과 중앙값, 최빈값을 가지고 있지만 데이터분포는 다르다.

점수

7

8

9

10

11

12

13

도수

1

1

2

2

2

1

1

 

점수

7

9

10

11

13

도수

1

2

4

2

1

 

점수

3

6

7

10

11

13

30

도수

2

1

2

3

1

1

1

 

 

이러한 경우 범위를 계산하여 구분할 수 있다. 범위(Range)는 데이터가 얼마나 많은 숫자 값을 포함하고 있는지를 알려준다. 범위를 찾으려면 데이터 집합에서 가장 큰 수에서 가장 작은 수를 뺀다. 가장 큰 값은 상한(upper bound), 가장 작은 값은 하한(lower bound)라한다.

 

범위는 데이터 집합의 분포를 간단하게 측정하는 방법이지만 그 범위 안에서 값들이 분포된 방식을 측정하는 가장 좋은 방법은 아니다. 범위는 데이터의 극단적인 값들을 이용해서 계산하기 때문에 데이터가 이상치를 가지고 있다면 상한값과 하한값 사이에 어떤 일이 있는지 나타내지 않기 때문에 범위를 이용한 값은 잘못된 정보를 제공할 수도 있다.

 

 

범위의 정의 자체가 이상치를 포함하기 때문에 이상치들에 대한 효과를 상쇄할 수 있는 방법이 필요하다. 이러한 방법 중 하나가 이상치를 무시하는 미니범위(mini range)를 살펴보는 것이다. 즉 데이터 전체의 범위를 측정하는 대신 이상치를 포함하지 않는 부분적인 범위를 측정 할 수 있다.

 

미니범위를 구성하는 방법에는 데이터 중심 근처에 있는 값들을 이용하는 방법이 있다. 데이터를 통일한 크기의 조각으로 나누어 중앙값을 사용한다. 이는 데이터의 중심에 분포하는 50%의 데이터만을 포함하기 때문에 이상치가 무시된다.

 

값이 가장 작은 사분위수는 하한 사분위수(lower quartile) 혹은 일사분위수(Q1)이라고 하고, 가장 큰 사분위수는 상한 사분위수(upper quartile) 혹은 삼사분위수(Q3)라고 한다. 가운데 있는 사분위수(Q2)는 데이터를 절반으로 나누므로 중앙값에 대한다. 사분위수 두 개사이에 존재하는 범위를 사분범위(interquartile range, IQR)이라고 한다.

 

 

사분위수 외에도 데이터를 분할하는 방식에는 데이터 집합을 퍼센트를 이용해서 분할하는 백분위수(percentiles), 조각을 열 개로 나누는 십분위수(deciles)도 있다. 백분위수는 흔히 사용되지는 않지만 벤치마킹을 하거나 등수나 위치를 정할 때 유용하다. 백분위수는 어떤 값이 다른 값들에 비해 얼마나 높은지 결정할 때 사용된다.

 

백분위수 참고 자료 : http://mba-lectures.com/statistics/descriptive-statistics/245/percentiles.html

 

 

통계학, 사분위수, 백분위수, 범위, Statistics, Range, Quartile, Percentile, 평균값, 이상치

'게임 기획자를 위한 통계학' 카테고리의 다른 글

중앙값(median)과 최빈값(mode)  (0) 2015.07.16
이상치(Outlier)와 편향(Skew)  (0) 2015.07.16
동접(동시접속자) 지표 분석  (0) 2015.07.16
매출 지표 분석  (0) 2015.07.16
사용자 지표 분석  (0) 2015.07.16

중앙값(median)과 최빈값(mode)

 

지난 포스트에서 일부 극한값 때문에 평균값이 무너지는 현상이 발생하여 이상치와 편향을 확인하여 극단적인 값으로 인한 평균이 무너지는 구간을 파악할 수 있었다.

 

편향된 데이터와 이상치 때문에 왜곡된 정보가 제공된다면 전형적인 값을 파악하기 위해 중앙값과 최빈값을 이용해야 한다.

 

중앙값(median)이란 무엇인가?

중앙값은 데이터를 나열하였을 때(오름차순) 가운데 있는 값을 뜻한다.

데이터가 홀수면 가운데 값이 중앙값이 된다.

19

18

20

20

20

21

21

100

102

 

데이터가 짝수면 가운데 있는 두수의 평균값이 중앙값이 된다.

18

20

20

20

21

21

100

102

     

20.5

     

 

 

아래와 같은 데이터가 있을 때 평균값, 편향, 중앙값에 대해서 알아보자.

 

[오른쪽 편향]

1

2

3

4

5

6

7

8

도수

4

6

4

4

3

2

1

1

 

  • 데이터 개수 : 25개 (데이터를 한 줄로 나열해본다.)
  • 평균값 : 3.44 ((4+12+12+16+15+12+7+8)/25)
  • 중앙값 : 3

 

데이터를 그래프로 그려보면 다음과 같이 오른쪽으로 편향되어 나타나며 평균값은 중앙값의 오른쪽(높음)에 위치한다.

 

 

 

[왼쪽 편향]

1

4

6

8

9

10

11

12

도수

1

1

2

3

4

4

5

5

 

  • 데이터 개수 : 25개 (데이터를 한 줄로 나열해본다.)
  • 평균값 : 9.28 ((1+4+12+24+36+40+55+60)/25)
  • 중앙값 : 10

 

데이터를 그래프로 그려보면 다음과 같이 왼쪽으로 편향되어 나타나며 평균값은 중앙값의 왼쪽(낮음)에 위치한다.

 

이처럼 중앙값을 사용하면 이상치로 인한 편향된 데이터에서 평균값이 높은지 낮은지 판별할 수 있다. 중앙값으로도 왜곡이 발생할 경우 최빈값을 이용할 수 있다.

예를 들어 아래와 같은 데이터가 있을 때 중앙값은 16.5가 된다. 데이터에 2 또는 31이 추가되면 중앙값은 2 또는 31이 된다.

1

2

2

2

31

32

32

32

     

16.5

     

 

 

최빈값(mode)이란 무엇인가?

최빈값은 데이터 집합에서 가장 많이 나타나서 도수가 가장 높은 값을 뜻한다. 최빈값이 하나 이상일 수도 있다. 어느 집합이 두 개의 최빈값을 가지고 있다면 이봉(bimodal)이라고 한다.

 

아래와 같은 데이터는 전체를 대표할 수 있는 값이 존재하지 않는다. 대신 각 종류의 데이터 집합에 대한 최빈값이 무엇인지 알 수 있다. 데이터에서는 두 개의 최빈값(2, 32)이 존재한다

1

2

3

31

32

33

도수

3

4

2

2

4

2

 

 

최빈값은 수치적 데이터만을 위해 사용되는 것은 아니다. 범주적 데이터를 위해서도 사용될 수 있으며 범주적 데이터를 위해 사용할 수 있는 유일한 평균값이다. 최빈값은 범주적 데이터를 다룰때 가장 흔히 사용하는 범주 중 하나이다.

 

게임으로 돌아와서 동접지표 분석할 때 평균 플레이 타임에 대한 왜곡에 대해서 설명하였다. 이상치와 편향으로 통계적 오류를 최소화 할 수 있었지만 1인당 플레이 시간에 대한 범주가 고르지 못하다면 최빈값등을 이용해서 각 범주를 대표할 수 있는 값을 함께 분석해보면 좋을 듯 하다.

 

 

 

게임마케팅, 게임용어, 마케팅 용어, 게임기획, 게임 분석, 게임이야기, 마케팅이야기, 게임분석, 기획자를 위한 게임 분석, 데이터분석, 데이터분석가, 게임분석가, 매출분석, 아이템분석

'게임 기획자를 위한 통계학' 카테고리의 다른 글

범위(Range)와 사분위수(Quartile)  (2) 2015.07.16
이상치(Outlier)와 편향(Skew)  (0) 2015.07.16
동접(동시접속자) 지표 분석  (0) 2015.07.16
매출 지표 분석  (0) 2015.07.16
사용자 지표 분석  (0) 2015.07.16

이상치(Outlier)와 편향(Skew)

 

지난 포스트에서 "특정 헤비한 유저로 인한 통계 수치가 무너지지 않았는지 살펴보아야 한다. 평균은 항상 전체대비 나타내기 때문에 일부 이상치 때문에 무너지는 경우가 많기 때문이다."라고 하였다.

 

이상치(Outlier)때문에 평균이 무너지는 경우가 어떤 뜻인지 알아보자.

 

이상치는 극단치, 이상점이라고 쓰이기도 하며 그 의미는 각 변수의 분포에서 비정상적으로 극단값을 갖는 경우나 비현실적 변수값들을 뜻한다. 즉 극단적적인 값을 이상치라고 한다. 예를 들어 아래와 같은 히스토그램의 평균값은 약 51.3의 값을 나타낸다. 대부분의 분포는 44~50 사이에 존재하지만 72에 있는 값도 무시할 수는 없다. 전형적인 분포에 비해 지나치게 높은 값이 존재하면서 평균값이 상승하면서 왜곡이 된다.

 

데이터에 포함된 이상치 때문에 평균값이 상승(또는 하락)된 현상을 보이면 데이터가 편향(skew)되었다고 한다. 편향된 데이터는 크게 3가지가 있다.

편향

설명

왼쪽으로 편향 : 이상치들의 꼬리가 왼쪽으로 길게 나타나며 평균값을 왼쪽으로 잡아끈다. 이런 상황에서는 평균값이 대부분의 값보다 낮다.

좌우 대칭 데이터 : 이상적인 경우 데이터가 좌우 대칭을 형성한다. 데이터가 좌우 대칭이면 평균값은 가운데 위치한다. 좌우에 형성되는 차트의 모양이 중앙을 중심으로 동일하다.

오른쪽 편향 : 이상치들의 꼬리가 오른쪽으로 길게 나타나며 평균값을 오른쪽으로 잡아끈다. 이런 상황에서는 평균값이 대부분의 값보다 높다.

 

 

이게 게임으로 돌아와서 하루동안 게임을 이용한 유저들의 1인 평균 플레이타임(TS)을 살펴보자. DAU가 1,000명이고 TS가 2시간이라고 하였을 때 평균값인 TS를 보면 꽤 괜찮은 지표일 수 있다. 하지만 분명 1000명에는 1분 이하의 플레이유저, 3시간 이상 플레이 유저, 23시간 이상 플레이 유저가 등 다양하게 모두 섞여있다. 결국 데이터의 분포에 따라 평균값은 왜곡될 수 밖에 없다. 이런 경우 평균값 외에 편향을 확인하여 극단적인 값으로 인한 평균값이 무너지는 구간을 잘 파악해야할 필요가 있다.

 

편향된 데이터와 이상치 때문에 왜곡된 정보가 제공된다면 전형적인 값이 무엇인지 파악하기 위해 중앙값등을 사용할 수 있다.

 

 

 

 

게임마케팅, 게임용어, 마케팅 용어, 게임기획, 게임 분석, 게임이야기, 마케팅이야기, 게임분석, 기획자를 위한 게임 분석, 데이터분석, 데이터분석가, 게임분석가, 매출분석, 아이템분석

동접(동시접속자) 지표 분석

 

지난 포스트에서 사용자 지표 분석과 매출 지표 분석에 대해서 살펴 보았다.

 

이번 포스트에서는 동접(동시 접속자) 지표에 대한 분석에 대해서 알아본다.

  • CCU (Concurrent User) : 특정 시점에 접속한 동시 접속자 수
  • MCU (Maxium Concurrent User) : 하루 동안 가장 높은 동시 접속자 수치.
  • PCU (Peak Concurrent User) : MCU 동일어
  • ACU (Average Concurrent User) : 1일 동안의 평균 동시 접속자 수
  • Stickness : 고착도 (DAU/MAU)/100
  • MTS (Mutigame Time Spent): 해당 기간 동안의 평균 실제 플레이 타임
  • TS(Time Spent) : 해당기간 동안의 유저1인당 플레이 타임

 

동접자 지표 분석을 하려면 주기적으로 현재 게임을 플레이하고 있는 유저의 수를 기록해야 한다. 이때 동접을 기록하는 주기의 간격은 짧을수록 흐름을 파악하는데 정확한 통계를 제공하지만 시스템 부하 및 특성을 감안하여 적당한 시간 간격을 유지하도록 한다. 통상적으로 대부분 업계에서는 기록 주기를 5분간격으로 가장 많이 사용한다. 동접을 기록하기 위해서는 기본적으로 기록시간, 서버, 동시접속 수 정보가 필요하다.

 

기본적인 테이블 스키마는 다음과 같다. 이때 유연성을 고려하여 우측보다는 좌측의 스키마 구조를 사용할 것을 권장한다.

 

 

좌측의 스키마 구조로 설계하였을 경우에는 데이터가 다음과 같이 적재된다. 예를 들어 서버가 3대라면 5분 단위로 각 서버당 1ROW씩 총 3개의 ROW가 생성된다.

 

우측의 스키마 구조로 설계하였을 경우에는 이미 3개 서버의 구조가 만들어져 있으므로 5분당 1ROW가 생성된다.

 

언뜻 보기에는 우측의 스키마 구조가 보기에도 편하고 서로 비교하기에도 편해보이지만 만약 여기에서 서버가 한대 또는 그이상 추가된다면 어떻게 될까?

  1. 좌측의 구조에서는 스키마 변경없이 기록시간, 서버명4, 동시접속 수 그대로 기록하면 된다.

 

  1. 우측의 경우에는 스키마 구조가 서버 수에 따라 변경되어야 한다. 스키마가 변경되면 데이터를 기록하기 위한 쿼리(소스코드)도 변경이 발생한다.

 

데이터구조의 유연성을 위해 좌측처럼 설계하고 실제 사용자에게 보여줄 때 피벗을 사용해서 보기 편한 방법으로 표현하면 된다. (웹으로 따지면 MVC 개념이랄까..아니면 말고..)

 

동접에 대한 기록은 보통 게임서버들이 담당한다. 현재 게임서버에 접속되어 있는 유저의 세션을 파악하여 기록하기 때문에 가장 정확하다고 할 수 있다.

 

다음 분석은 지극히 개인적인 생각이므로 분석에 대한 의견은 덧글로 나눌 수 있으면 좋을 듯하다.

 

동시 접속자수가 높다는 뜻은 그만큼 많은 사용자가 게임을 즐기고 있다는 뜻으로 매우 긍정적인신호이다. 특히 시간에 따른 동접 지표는 게임의 특성, 유저의 연령층, 게임의 장르에 따라 영향을 많이 받기 때문에 지표 그래프가 매우 다양하게 표현된다. 동시 접속의 패턴으로는 고연령 위주의 게임일수록 ACU가 높으며 저연령 일수록 MCU가 높은 성향을 나타낸다.

 

게임 동접 지표를 보면 쌍봉차트라고 하여 특별히 지표가 높은 구간이 있다. 예를 들어 아래와 같은 동접 지표 (이해를 돕기 위해 주식차트를 가져왔음, X축과 Y축의 수치는 무시함)가 있다고 가정할 때 하루 동안의 동접 지표 추이를 나타낸 것이다.

 

아래 그림으로는 하루에 두 번의 PCU를 확인할 수 있는데 게임의 장르 또는 게임을 즐기는 연령층에 따라 다른 시간대에 상승지표가 나타날 것이다. 어린이들이 이용하는 게임이라면 학교를 마치고 학원가기 전의 시간(13시~ 15시) 그리고 학원을 마치고 저녁식사 (17~19시)까지가 높은 지표를 나타낼 것이다. 성인이 즐기는 게임은 똑같은 쌍봉이라도 시간대가 다를 수 있다. 일반적으로 직장인들이기 때문에 (물론 아닐수도….시무룩….) 출근 전 (7~9시), 퇴근(야근) 후 (22~24시) 취침까지가 높을 것이다.

 

 

위와 같은 형태의 지표는 PC 게임이 주류일때의 패턴이다.(물론 인기 좋은 게임은 그래프가 거의 일정할 것이다. 부럽…).

PC 게임의 경우에는 환경적 제약이 있으므로 PC를 사용할 수 있는 시간이 제한적이기 때문이다.

 

 

최근에는 모바일 게임이 대세로 자리 잡으면서 접속 환경에 대한 제약이 완화되었고 게임의 장르 또한 라이트한 게임부터 기존의 MMORPG같은 헤비한 게임까지 다양하게 즐기고 있어 동접지표는 과거와는 다른 형태로 나타난다.

주변을 둘러보면 지하철, 버스 등 이동할때 게임을 즐기는 사람을 많이 보았을 것이다. 직장인의 경우 출, 퇴근 시간에 게임을 많이 하기 때문에 기존 PC 게임과는 다른 시간대의 지표를 나타낸다.

 

모바일 게임의 경우 특히 라이트한 게임의 경우에는 동접외에도 재방문율, 1인당 플레이 타임을 함께 분석해야 한다. 라이트한 게임은 잠깐 잠깐 즐길 수 있는 게임이기에 수시로 접속자가 로그인과 로그아웃을 반복한다. 재미있는 게임이라면 1일 동안에도 재방문율이 매우 높을 것이다.

 

팡류 또는 런류 등의 라이트한 게임에서는 CU보다 고착률((DAU/MAU)*100)으 지표가 중요하다.

 

동접과 DAU, 그리고 플레이 타임을 종합적으로 비교해 볼 때 DAU가 높은 반면 플레이타임이 적다면 접속만 유지된 상태로 아무 행동을 하지 않는 유령 유저 가능성이 높다.

 

그리고 어떤 게임인지 호기심에 일회성 방문일 가능성이 있으므로 1인당 플레이타임을 관심있게 확인해야 한다. (그래서 유저당 플레이 시간도 주기적으로 기록해주어야 한다. 이때 유저가 활동중이라는 것을 알 수 있는 의미있는 행동을 할 때 같이 기록하는 것이 좋다. 예를 들면 필드 이동 또는 전투 등)

 

TS(Time Spent, 플레이타임)가 낮은 경우 게임에 체류하는 시간이 짧음으로 오랫동안 머무르게 할 수 있는 콘텐츠 개발이 필요하다. TS가 과도하게 높은 경우에는 특정 헤비한 유저로 인한 통계 수치가 무너지지 않았는지 살펴보아야 한다. 평균은 항상 전체대비 나타내기 때문에 일부 이상치 때문에 무너지는 경우가 많기 때문이다. MTS(평균 플레이 타임)가 높은 경우에는 하드코어한 유저가 생성되고 컨텐츠 소모가 빠르게 진행됨을 암시한다.

 

 

동접 지표는 게임의 성공여부를 판단하는 가장 기본적이면서도 신뢰하는 통계이기 때문에 (플레이를 해야 아이템을 구매하고 수익으로 이어지는 아름다운 선순환 구조^^) 동접, DAU, 플레이타임을 잘 분석하여 콘텐츠 개발 및 마케팅에 잘 활용해야 한다.

 

게임마케팅, 게임용어, 마케팅 용어, 게임기획, 게임 분석, 게임이야기, 마케팅이야기, 게임분석, 기획자를 위한 게임 분석, 데이터분석, 데이터분석가, 게임분석가, 매출분석, 아이템분석

'게임 기획자를 위한 통계학' 카테고리의 다른 글

중앙값(median)과 최빈값(mode)  (0) 2015.07.16
이상치(Outlier)와 편향(Skew)  (0) 2015.07.16
매출 지표 분석  (0) 2015.07.16
사용자 지표 분석  (0) 2015.07.16
게임 마케팅 용어 정리  (0) 2015.07.16

+ Recent posts