분할표본의 사용과 생성

SungWookKang 2015. 7. 16. 19:22

분할표본의 사용과 생성

지도학습에서는 개발된 예측 또는 분류 모형을 새로운 데이터에 적용할 경우 얼마나 좋은 성과가 나타날 것인가에 대한 의문이 제기 된다. 특히 모형이 실제로 실행 될 때 가장 좋은 성과를 보이는 것으로 생각되는 모형을 선택 할 수 있도록 다양한 모형들 사이의 성과를 비교하는 것이 주요 관심사가 된다.

일반적으로 생각하기에 미래의 데이터를 가진 주요 성과변수를 잘 분류하거나 예측하는 모형을 선택하는 것이 최선이라고 생각할 수 있지만 모형의 구축과 모형의 성과 평가에 동일한 데이터를 사용할 경우 모형의 편의(bias)가 발생한다. 같은 데이터를 적용하여 가장 좋은 성과를 보이는 모형을 선택할 때 이 모형의 성과가 좀더 좋은 이유는 다음과 같다.

선택된 모형이 비교우위의 모형이기 때문이다.
선택된 모형이 다른 모형보다 우연히 더 잘 맞게 되는 데이터의 우연성 측면 때문이다.

특히 두 번째의 경우는 의사결정나무 및 신경망모형 등과 같은 기법들에 있어서 데이터에 대해 선형적이거나 다른 구조적인 관계를 표현하지 않음으로 인해 데이터를 과적합화 시킬 수 있는 위험성을 가지고 있다.

과적합화 : http://sqlmvp.kr/140189567411

이러한 문제를 해결하기 위해 데이터를 분할한 후 이 중 하나의 분할된 데이터만 사용하여 모형을 개발하고 그 개발된 모형에 나머지 데이터 집합을 적용하여 여러 가지 방식으로 측정되는 모형성과가 어떠한 결과를 나타내는지 살펴 보아야 한다.

예를 들어 분류모형에서는 오분류로 남겨진 레코드의 비율을 계산하고 예측모형에서는 예측값, 실제값 사이의 잔차(오차)를 측정 할 수 있다. 일반적으로 데이터는 학습용, 평가용, 검증용 3개의 분할 데이터를 사용한다.

데이터를 분할하는 방법은 미리 결정된 비율에 따라서 무작위로 이루어지거나 어떤 특정 변수가 해당 레코드가 어느 분할 표본에 속하는지를 결정해 주는 방식으로 이루어 진다. 시계열의 경우는 시간순으로 데이터가 분할 된다.

대부분의 경우 데이터가 편향적으로 분할되는 것을 방지하기 위해 무작위로 이루어지며 데이터를 연속해서 3분할을 한 다음 이 집합 중 하나를 다시 3분할로 나누어 사용한다.

[학습용 집합(Training Partition)]

일반적으로 가장 크기가 큰 데이터 집합으로 분석대상의 다양한 모형을 구축하기 위해 사용되는 데이터. 다수의 모형을 개발하기 위해 일반적으로 동일한 학습용 집합이 사용 된다.

[평가용 집합(test partition)]

검증용 집합이라 불리며 새로운 모형을 비교하여 가장 좋은 모형을 선택하기 위해 모형 성과를 평가하기 위해 사용된다.

[검증용 집합(holdout partition)]

예비용 집합으로 불리며 새로운 데이터를 가지고 선택된 모형의 성과를 평가할 필요가 있을 때 사용. 검증용 집합을 사용하는 이유는 선정된 모형을 평가할 때 평가용 데이터에 최적화되어 있기 때문에 새로운 데이터를 적용하여 모델의 검증하기 위함이다. 검증할 모형이 많을수록 평가용 데이터의 잡음을 유의적으로 내포할 가능성이 커진다.

이제까지 사용하지 않은 새로운 검증용 데이터를 모형에 적용한다면 얼마나 좋은 성과를 갖는지에 관한 추정치를 얻을 수 있다.

최근접이웃 알고리즘의 경우 학습용 데이터 자체가 모형에 해당한다. 평가용과 검증용 집합 및 새로운 데이터의 레코드들은 최근접이웃을 찾기 위해 학습용 데이터의 레코드와 비교 된다.

아래 그림은 데이터마이닝 프로세스의 3가지 분할표본들과 그 분할 표본들의 사용과정을 나타낸다.

[참고자료]

비즈니스 인텔리전스를 위한 데이터 마이닝 (사이텍미디어)