데이터 마이닝 수행 단계
데이터 마이닝 또는 데이터를 분석하는데 있어서 가장 큰 오류 중 하나는 문제에 대한 잘못 된 인식이다. 때로는 어떤 문제를 찾기 위해 분석하고자 목표가 명확하지 않을 때도 있다.
따라서 분석 또는 마이닝을 할 때는 문제에 대한 이해와 목표 등의 명확한 명세가 필요 하다. 다음 순서를 통해서 일반적으로 마이닝 프로젝트를 수행 하는 단계를 살펴 보도록 하자.
마아닝의 모형 구축에 필요한 데이터는 평가용 데이터, 학습용 데이터, 검증용 데이터 의 3종류로 나눌 수 있다.
[평가용 데이터]
평가용 데이터는 모형을 적합화 하는 과정의 일부분에 속한다. 따라서 평가용 데이터는 최종적으로 채택된 모형을 새로운 데이터에 적용할 때 발생하는 오차보다 과소 평가 될 수 있다. 그 이유는 평가용 데이터가 모형의 파라미터를 추정하는데 직접적으로 사용되지 않으면서 모형의 학습종료 시점을 정하는데 직접적으로 사용 되기 때문이다.
[학습용 데이터]
평가용 데이터를 사용하는 목적은 모형의 과적합화 문제를 해결하기 위해서 이다. 이 경우 평가용 데이터는 넓은 의미로 학습용 데이터에 해당 한다. 평가용 데이터에 의한 모형의 예측 오차가 최소가 되는 시점에서 학습용 데이터를 이용한 모형의 학습이 종료 된다.
[검증용 데이터]
검증용 데이터는 추정된 모형이 여러 모형으로 존재 할 때 이 모형들 간의 최종적인 성과를 비교하기 위해서 사용되는 별도의 데이터 집합이다. 즉 검증용 데이터를 이용한 모형의 성과가 가장 높은 모형이 최종적으로 가장 성과가 높은 모형이라고 판단 한다.
1. 왜 마이닝을 해야하는가? 목적을 확인 하자.
무엇을 위해 마아닝을 해야 하는지? 여기에서 얻고자 하는 방향은 무엇인지, 데이터마이닝 프로젝트의 적용이 가능한지 확인 해야 한다. 목적이 명확하지 않으면 분석 방향 또한 명확 하지가 않다.
2. 분석에 필요한 데이터를 수집하자.
분석에 사용될 데이터를 수집한다. 데이터 수집은 내부 데이터(이미 내가 가지고 있거나 운용할 수 있는 데이터)와 외부 데이터(카드사의 정보, 기타 외부 기관의 정보)가 있으며 대량의 데이터로부터 무작위로 표본을 추출한다. 데이터 마이닝에 사용되는 데이터는 대부분 매우 큰 데이터베이스이며 대용량 데이터를 주로 다룬다.
3. 데이터 탐색과 정제, 전처리 작업을 하자.
수집한 데이터가 타당한 조건의 데이터인지 검증 하는 것이다. 잘못된 샘플링(수집된 데이터)는 엉뚱한 결과를 발생 시키므로 매우 중요하다.
- 수집된 데이터의 오류는 없는가?
- 결측치를 어떻게 처리해야 하는가?
- 우리가 기대하는 값이 있을 때 합리적인 데이터인가?
- 극단치가 명백히 존재하는가?
4. 데이터를 축소하고 데이터 집합으로 분할 하자.
불필요한 변수를 제거하고 변수를 변환하며 새로운 변수를 생성시키는 등의 작업이 포함된다. 각 변수가 나타내는 의미와 모형에서 변수를 포함하는 것이 타당한지 여부 등을 확인해야 한다.
5. 목적에 맞는 마이닝 유형을 선택 하자.
마이닝을 해야하는 목적에 대한 일반적인 질문을 구체화 하여 통계적 질문으로 변환하는 과정이다. 데이터 마이닝의 프로젝트의 목적에 맞는 분석 유형을 선택 한다.
6. 마이닝 기법(회귀분석, 신경망, 군집분석 등)을 선택하자.
7. 마이닝 기법을 적용하여 데이터 마이닝 작업을 수행 하자.
알고리즘 내에서 설명 변수 또는 알고리즘의 세부 선택 조건 등을 달리하여 적용하는 등 다양한 변수들을 적용하는 반복 과정이 수반 된다. 조건들이 적절한 경우 평가용 데이터를 이용한 알고리즘의 성과로부터 피드백을 받아서 적합하게 개선되는 변인들을 사용하도록 한다.
회귀분석, 판별 분석, 로지스틱 회귀분석 등의 통계 모형에서는 모형 추정 결과가 큰 시행 착오 없이 최적의 모형을 추정 할 수 있기 때문에 별도의 평가용 데이터가 필요 없다.
신경망 모형, 분류나무, 회귀나무 등의 데이터마이닝은 모형 구축 시 모형의 과적합화 문제 때문에 최적의 모형을 찾기가 쉽지 않다. 이때 평가용 데이터를 활용 할 경우 가장 적합한 모형을 추정 할 수 있다.
8. 알고리즘 결과를 해석하자.
적용하기에 가장 좋은 알고리즘을 선택하고 얼마나 좋은 성과를 도출하는지에 대한 아이디어를 얻기 위해 검증용 데이터를 이용하여 최종 선택한 알고리즘을 평가한다.
9. 모형을 활용하자.
도출된 모형을 운영 시스템과 통합하고 실제 레코드를 적용하여 의사결정 등의 운영을 한다.
'SW Engineering > 머신러닝 딥러닝' 카테고리의 다른 글
분할표본의 사용과 생성 (0) | 2015.07.16 |
---|---|
데이터 전처리(preprocessing)와 정제(Cleansing)과정 (0) | 2015.07.16 |
지도학습과 자율학습 (0) | 2015.07.16 |
데이터 마이닝에 사용되는 주요 개념 (0) | 2015.07.16 |
데이터 마이닝의 용어정리 (0) | 2015.07.16 |