데이터 마이닝에 사용되는 주요 개념
데이터 마이닝에 사용되는 주요 개념
분류(Classification)
분류(Classification)는 데이터 분석의 가장 기본적인 형태이다. 예를 들어 어떤 제품을 판매 하고 있다고 할 때 구매한 사람과 구매하지 않은 사람 또는 구매 제안에 대해 반응한 사람과 반응하지 않은 사람으로 분류 할 수 있다.
데이터 마이닝의 일반적인 임무는 분류 결과가 알려져 있지 않거나 미래에 발생 할 경우 어떤 분류 결과가 나타나는지 또는 나타날 것인지 예측할 목적으로 데이터를 조사하는 것이다. 즉 분류결과가 알려진 유사 데이터를 사용하여 규칙들을 찾아낸 다음 그 규칙들을 분류결과가 알려지지 않은 해당 데이터에 적용하는 것이다.
예측(Prediction)
예측(Prediction)은 집단(구매자/비구매자) 변수보다 수치형(정량) 변수(구매량)의 값을 예측한다는 점을 제외하고 분류문제와 유사하다. 분류문제는 집단을 예측하는 것이 목적이지만 예측은 연속형 변수의 값을 예측하는 것을 가리킨다. 다른 표현으로는 추정(Estimation)을 사용하기도 한다.
연관성 규칙(Association Rules)
데이터 마이닝의 대표적이 예로 맥주 기저귀 사례가 있다. 어떤 항목이 어떤 항목과 관련되는지에 대한 분석을 할 때 연관성 규칙(Association Rules) 또는 친화성 분석(Affinity Analysis)을 사용한다. 예를 들어 식료품점에서 할인 쿠폰을 발생 하기 위해 고객들이 구매한 모든 물품들을 조사한 후(장바구니 분석)에 이 정보를 이용하여 고객의 구매결과들을 연관성 규칙으로 표현함으로써 어떤 물품을 할인할지 결정 한다. 넷플릭스(Netflix.com)나 아마존닷컴(Amazon.com)등의 온라인 상점들은 새로운 구매를 추천해 주는 추천 시스템의 핵심기법으로 이 기법을 많이 사용 하고 있다.
주변의 사례로 예를 들어 보면 편의점에서 파는 삼각김밥과 음료수의 묶음 상품 등이다.
예측 분석(Predictive Analytics)
분류, 예측 그리고 친화성 분석이 예측 분석(Predictive Analytics)을 수행하는 분석 기법으로 분류 된다.
데이터 축소(Data Reduction)
데이터 축소(Data Reduction)는 대량의 변수 또는 레코드들을 작은 변수군 또는 레코드 집합으로병합하는 과정을 말한다. 데이터를 분석 할 때 수 천개의 제품 유형을 소그룹 집단으로 묶는 작업이 이에 해당 한다.
데이터 탐색
데이터가 어떤 메시지를 담고 있는지를 알아 내기 위하여 세부적인 데이터 특성을 유지하면서 데이터 전체의 특성을 파악할 수 있도록 데이터의 척도 또는 차원을 축소시켜 비슷한 정보를 내포하고 있는 서로 유사한 변수들을 통합하여 하나의 레코드 그룹으로 통합 시킬 수 있다.
데이터 시각화(Data Visualization)
데이터가 어떤 정보를 갖고 있는지를 보기 위한 데이터 탐색의 기법으로 그래프가 있다. 이 기법은 변수 간의 관계를 보는 것 뿐만 아니라 각각의 변수를 개별적으로 조사한다. 수치형 변수에 대해서는 그 변수 값의 분포를 파악하고 극단치(outliers)를 찾아내며 분석업무과 관련된 다른 정보를 발견하기 위해 히스토그램(histogram)과 상자그림(bloxplot)을 이용한다. 또한 변수 간의 가능한 관계들, 관계 유형, 그리고 극단치를 찾기 위해 한 쌍의 수치형 변수에 대한 산점도(scatterplots)를 조사할 수 있다.