지도학습과 자율학습
데이터 마이닝 기법에서 지도학습과 자율학습이 있다. 지도 학습은 분류와 예측을 위해 사용되는 알고리즘이며 자율 학습은 예측 또는 분류를 위해 필요한 출력변수가 없는 경우 사용되는 알고 리즘이다.
[지도학습(Supervised Learning)]
지도학습(Supervised Learning)은 훈련 데이터(Training Data)로부터 하나의 함수를 유추해내기 위한 기계 학습(Machine Learning)의 한 방법이다. 훈련 데이터는 일반적으로 입력 개체에 대한 속성을 벡터 형태로 포함하고 있으며 각각의 벡터에 대해 원하는 결과가 무엇인지 표시되어 있다. 이렇게 유추된 함수 중 연속적인 값을 출력하는 것을 회귀분석(Regression)이라 하고 주어진 입력 벡터가 어떤 종류의 값인지 표식하는 것을 분류(Classification)라 한다. 지도학습기(Supervised Learner)가 하는 작업은 훈련데이터로부터 주어진 데이터에 대해 예측하고자 하는 값을 올바로 추측해내는 것이다. 이 목표를 달성하기 위해서는 학습기가 "알맞은" 방법을 통하여 기존의 훈련 데이터로부터 나타나지 않던 상황까지도 일반화 하여 처리 할 수 있어야 한다. 훈련데이터로부터 하나의 함수가 유추되고 나면 해당 함수에 대한 평가를 통해 파라미터 최적화를 한다.
이러한 평가를 위해 교차검증(Cross-Validation)이 이용되며 이를 위해 훈련 집합(A Training Set), 검증 집합(A Validation Set), 테스트 집합(A Test Set)으로 나눈다. 교차 검증을 통하여 훈련된 각 함수에 대해 정밀도(Precision)와 재현율(Recall)를 측정 할 수 있다.
[자율학습(Unsupervised Learning)]
자율학습(Unsupervised Learning)은 기계학습의 일종으로 데이터가 어떻게 구성되었는지를 알아내는 문제의 범주에 속한다. 이 방법은 지도 학습(Supervised Learning) 혹은 강화 학습(Reinforcement Learning)과 달리 입력 값에 대한 목표치가 주어지지 않는다. 자율 학습은 통계의 밀도 추정(Density Estimation)과 깊은 연관이 있다. 이러한 자율 학습은 데이터의 주요 특징을 요악하고 설명 할 수 있다. 자율 학습의 예로는 클러스터링(Clustering), 독립 성분 분석(Independent Component Analysis), 연관성 규칙, 데이터 축소 등이 있다.
'SW Engineering > 머신러닝 딥러닝' 카테고리의 다른 글
분할표본의 사용과 생성 (0) | 2015.07.16 |
---|---|
데이터 전처리(preprocessing)와 정제(Cleansing)과정 (0) | 2015.07.16 |
데이터 마이닝 수행 단계 (0) | 2015.07.16 |
데이터 마이닝에 사용되는 주요 개념 (0) | 2015.07.16 |
데이터 마이닝의 용어정리 (0) | 2015.07.16 |