데이터 마이닝의 용어정리
데이터 마이닝의 용어정리
데이터 마이닝은 다양한 분야가 융합된 학문이기 때문에 동일한 의미에 대해서 다양한 용어가 사용된다. 또는 같은 용어를 사용하더라도 학문에 따라 비슷하지만 약간씩 다르게 해석 된다.
예를 들어 알고리즘 이라는 단어만 살펴 보아도 쓰이는 학문에 따라 다르게 해석 될 수도 있다.
[알고리즘(algorithm)]
- 수학 용어사전: 잘 정의되고 명백한 규칙들의 집합 또는 유한 번 의 단계 내에서 문제를 풀기 위한 과정
- 컴퓨터 용어사전: 어떤 문제를 해결하기 위해 명확히 정의된 유한개의 규칙과 절차의 모임
- 전기 용어사전: 어떤 문제를 유한 회의 스텝으로 풀기 위한 명확하게 규정된 법칙. 소정의 수순 집합
- 비파괴 검사 용어사전 : 계산 순서 또는 문제 해결을 위한 순서
- 광물자원 용어사전 : 특정한 처리를 수행하는데 사용되는 명백히 정의된 일련의 단계
데이터 마이닝에서 사용하는 용어를 정리해 보도록 하자. 아래 용어는 데이터 마이닝 (저자 : GALIT SHMUELI / 번역 : 신택수, 홍태호)을 참고 하였다.
알고리즘(Algorithm)
특정 데이터 마이닝을 위한 기법. 주로 사용되는 기법은 의사결정 트리, 회귀분석, 군집 분석 등이 있다.
속성(attribute)
보통 X 로 표기되며, 특성, 예측변수, 입력변수, 독립변수, 또는 데이터베이스 관점에서 필드(field)라고도 한다.
사례(case)
고객, 거래 등의 측정치를 갖는 분석의 단위로서 관찰치, 레코드, 패턴, 또는 행(row)이라고도 한다(각 행은 레코드를, 각 열은 변수를 의미함).
신뢰도(confidence)
- "A와 B가 구매된다면 C 또한 구매될 것이다."라는 연관성규칙에서 사용되며, 이때 신뢰도는 A와 B가 구매된다는 조건하에서 C가 구매될 조건부 확률을 말한다.
- 통계학의 신뢰구간(confidence interval)과 같이 좀더 넓은 의미로 쓰인다. 다른 표본과는 반대되는 표본을 선택함으로 인해 발생하는 추정치의 오차 정도를 말한다.
종속변수(dependent variable)
보통 Y로 표기되며, 지도학습으로 예측되는변수이다. 또한 반응변수, 출력변수, 목표변수, 또는 성과변수라고도 한다.
추정(estimation)
연속형 출력변수의 가치를 예측하는 것을 말하며, 예측(prediction)이라고도 한다.
특성(feature)
보통 X로 표기되며, 예측변수, 입력변수, 독립변수, 또는 데이터베이스 관점에서 필드라고도 한다.
예비용 표본(holdout sample)
모형을 적합 시키는 데 사용되지 않고 모형의 성과를 평가하는 데 사용되는 데이터 표본이다. 이 책에서는 예비용 표본이라는 용어 대신에 평가용 집합(validation set)이라는 용어를 사용하거나 검증용 집합(test set)이라는 용어를 사용한다.
입력변수(input variable)
보통 X로 표기되며, 특성, 예측변수, 독립변수, 또는 데이터베이스 관점에서 필드라고도 한다.
모형(model)
데이터 집합에 적용되어 파라미터(parameter)를 결정하는 알고리즘을 말한다(많은 알고리즘은 사용자가 조정할 수 있는 파라미터를 가짐).
관찰치(observation)
고객, 거래 등의 측정치를 갖는 분석의 단위로서 사례, 레코드, 패턴, 또는 행(row)이라고도 한다(각 행은 레코드를, 각 열은 변수를 의미함).
성과변수(outcome variable)
보통 Y로 표기되며, 지도학습으로 예측되는 변수이다. 또한 종속변수, 반응변수, 출력변수, 또는 목표변수라고도 한다.
출력변수(output variable)
보통 Y로 표기되며, 지도학습으로 예측되는 변수이다. 또한 종속변수, 반응변수, 목표변수, 또는 성과변수라고도 한다.
P(A|B)
사건 B가 발생한다는 조건하에서 사건 A가 발생할 조건부 확률을 의미한다.
패턴(pattern)
하나의 관찰치에 대한 측정치의 집합을 말한다. 예를 들어 한 사람의 키, 몸무게 및 나이를 묶어서 하나의 패턴으로 정의한다.
예측(prediction)
연속형 출력변수의 가치를 예측하는 것을 말하며, 추정(estimation)이라고도 한다.
예측변수(predictor)
보통 X로 표기되며, 특성, 입력변수, 독립변수, 또는 데이터베이스 관점에서 필드(field)라고도 한다.
레코드(record)
고객, 거래 등의 측정치를 갖는 분석의 단위로서 사례, 관찰치, 패턴, 또는 행(row)이라고도 한다(각 행은 레코드를, 각 열은 변수를 의미함).
반응변수(response variable)
보통 Y로 표기되며, 지도학습으로 예측되는 변수이다. 또한 종속변수, 출력변수, 목표변수, 또는 성과변수라고도 한다.
점수(score)
예측 값 또는 예측집단을 나타낸다. 새로운 데이터에 점수를 매기는 것은 학습용 데이터를 가지고 개발된 모형을 이용하여 새로운 데이터에 출력 값을 예측하는 것을 의미한다.
성공집단(success class)
이진 집단변수에서 중요한 집단을 말한다. 예를 들어 구매/비구매의 성과변수에서 구매자 집단이 성공집단에 해당한다.
지도학습(supervised learning)
주요 종속변수가 알려져 있는 레코드에 알고리즘(로지스틱 회귀분석, 회귀나무 등)을 적용하는 과정을 말한다. 알고리즘은 출력변수가 알려져 있지 않은 신규 레코드를 가지고 출력 변수 값을 예측하는 방법을 학습한다.
검증용 데이터(test data)(또는 검증용 집합)
최종 선택모형이 새로운 데이터에 대하여 얼마나 좋은 성과를 갖는지를 평가하기 위해서 모형구축 및 모형 선택과정이 끝난 후에만 사용되는 데이터를 말한다.
학습용 데이터(training data)(또는 학습용 집합)
모형을 적합화시키기 위해 사용되는 데이터를 말한다.
자율학습(unsupervised learning)
주요 출력 값을 예측하기보다는 데이터 자체의 특성에 대한 학습을 시도, 분석한다(예를 들어 군집들의 소속여부 등).
평가용 데이터(validation data)(또는 평가용 집합)
모형이 얼마나 잘 적합화 되었는지 평가하고, 일부 모형들을 조정하며, 구축된 모형들 중에서 가장 좋은 모형을 선택하기 위한 목적으로 사용되는 데이터를 말한다.
변수(variable)
입력변수(X)와 출력변수(Y)를 모두 포함하는 레코드의 측정치를 말한다.
[참고자료]
데이터 마이닝 (저자 : GALIT SHMUELI / 번역 : 신택수, 홍태호)