전체 글 1383

의사결정나무(Decision Tree)

의사결정나무(Decision Tree) 의사결정나무(Decision Tree)는 의사결정규칙(Decision Rule)을 나무구조로 도표화하여 분류와 예측을 수행하는 분석 방법이다. 분류 또는 예측의 과정이 나무구조에 의한 추론규칙에 의해서 표현되기 때문에 다른 방법(신경망, 판별분석, 회귀분석 등)에 비하여 연구자가 그 과정을 쉽게 이해하고 설명할 수 있다는 장점을 가지고 있다. 장점단점해석의 용이성 교호효과의 해석 비모수적 모형비연속성 선형성 또는 주효과의 결여 비안정성 데이터마이닝에서의 의사결정나무는 탐색과 모형화라는 두 가지 특성을 모두 가지고 있다고 할 수 있다. 판별분석 또는 회귀분석등과 같은 모수적 모형을 분석하기 위하여 사전에 이상치를 검색하거나 분석에 필요한 변수 또는 모형에 포함되어야 ..

로지스틱 회귀분석(Logistic regression)

로지스틱 회귀분석(Logistic regression) 로지스틱 회귀분석은 분석하고자 하는 대상들이 두 집단 혹은 그 이상의 집단(다변수 데이터)으로 나누어진 경우에 개별 관측치들이 어느 집단으로 분류될 수 있는가를 분석하고 이를 예측하는 모형을 개발하는데 사용되는 대표적인 통계 알고리즘 이다. 로지스틱 회귀분석은 분석 목적이나 절차에 있어서는 일반 회귀분석과 유사하나 종속 변수가 명목척도로 측정된 범주형 질적 변수인 경우에 사용한다는 점에서 일반 회귀분석과 차이가 있다. 로지스틱 회귀분석은 판별분석과는 달리 예측변수에 범주형 변수를 투입 할 수 있는 장점이 있다.가장 일반적인 예로 로지스틱 회귀에서는 성별을 매우 자연스럽게 예측 변수로 포함할 수 있다. 종속 변수가 셋 이상인 경우에는 다항 로지스틱 분..

분할표본의 사용과 생성

분할표본의 사용과 생성 지도학습에서는 개발된 예측 또는 분류 모형을 새로운 데이터에 적용할 경우 얼마나 좋은 성과가 나타날 것인가에 대한 의문이 제기 된다. 특히 모형이 실제로 실행 될 때 가장 좋은 성과를 보이는 것으로 생각되는 모형을 선택 할 수 있도록 다양한 모형들 사이의 성과를 비교하는 것이 주요 관심사가 된다. 일반적으로 생각하기에 미래의 데이터를 가진 주요 성과변수를 잘 분류하거나 예측하는 모형을 선택하는 것이 최선이라고 생각할 수 있지만 모형의 구축과 모형의 성과 평가에 동일한 데이터를 사용할 경우 모형의 편의(bias)가 발생한다. 같은 데이터를 적용하여 가장 좋은 성과를 보이는 모형을 선택할 때 이 모형의 성과가 좀더 좋은 이유는 다음과 같다. 선택된 모형이 비교우위의 모형이기 때문이다...

데이터 전처리(preprocessing)와 정제(Cleansing)과정

데이터 전처리(preprocessing)와 정제(Cleansing)과정 데이터 수집은 내부 데이터(이미 내가 가지고 있거나 운용할 수 있는 데이터)와 외부 데이터(카드사의 정보, 기타 외부 기관의 정보)가 있으며 대량의 데이터로부터 무작위로 표본을 추출한다. 이렇게 수집된 데이터는 그대로 활용 할 수가 없다. 수집한 데이터가 타당한 조건의 데이터인지 검증 및 정제를 하여 활용 할 수 있는 데이터로 만들어야 한다. 잘못된 샘플링(수집된 데이터) 데이터는 엉뚱한 결과를 발생 시키므로 전처리 미 및 정제 과정은 매우 중요하다. 변수의 유형 변수를 분류하는 방법에는 여러 가지가 있으며 가장 기본적으로는 수치형, 텍스트형(문자형)이 있다. 이 변수들은 다시 연속형(주어진 범위의 실수), 정수형(정수값), 범주형(..

데이터 마이닝 수행 단계

데이터 마이닝 수행 단계 데이터 마이닝 또는 데이터를 분석하는데 있어서 가장 큰 오류 중 하나는 문제에 대한 잘못 된 인식이다. 때로는 어떤 문제를 찾기 위해 분석하고자 목표가 명확하지 않을 때도 있다. 따라서 분석 또는 마이닝을 할 때는 문제에 대한 이해와 목표 등의 명확한 명세가 필요 하다. 다음 순서를 통해서 일반적으로 마이닝 프로젝트를 수행 하는 단계를 살펴 보도록 하자. 마아닝의 모형 구축에 필요한 데이터는 평가용 데이터, 학습용 데이터, 검증용 데이터 의 3종류로 나눌 수 있다. [평가용 데이터] 평가용 데이터는 모형을 적합화 하는 과정의 일부분에 속한다. 따라서 평가용 데이터는 최종적으로 채택된 모형을 새로운 데이터에 적용할 때 발생하는 오차보다 과소 평가 될 수 있다. 그 이유는 평가용 데..

지도학습과 자율학습

지도학습과 자율학습 데이터 마이닝 기법에서 지도학습과 자율학습이 있다. 지도 학습은 분류와 예측을 위해 사용되는 알고리즘이며 자율 학습은 예측 또는 분류를 위해 필요한 출력변수가 없는 경우 사용되는 알고 리즘이다. [지도학습(Supervised Learning)] 지도학습(Supervised Learning)은 훈련 데이터(Training Data)로부터 하나의 함수를 유추해내기 위한 기계 학습(Machine Learning)의 한 방법이다. 훈련 데이터는 일반적으로 입력 개체에 대한 속성을 벡터 형태로 포함하고 있으며 각각의 벡터에 대해 원하는 결과가 무엇인지 표시되어 있다. 이렇게 유추된 함수 중 연속적인 값을 출력하는 것을 회귀분석(Regression)이라 하고 주어진 입력 벡터가 어떤 종류의 값인..

데이터 마이닝에 사용되는 주요 개념

데이터 마이닝에 사용되는 주요 개념 분류(Classification) 분류(Classification)는 데이터 분석의 가장 기본적인 형태이다. 예를 들어 어떤 제품을 판매 하고 있다고 할 때 구매한 사람과 구매하지 않은 사람 또는 구매 제안에 대해 반응한 사람과 반응하지 않은 사람으로 분류 할 수 있다. 데이터 마이닝의 일반적인 임무는 분류 결과가 알려져 있지 않거나 미래에 발생 할 경우 어떤 분류 결과가 나타나는지 또는 나타날 것인지 예측할 목적으로 데이터를 조사하는 것이다. 즉 분류결과가 알려진 유사 데이터를 사용하여 규칙들을 찾아낸 다음 그 규칙들을 분류결과가 알려지지 않은 해당 데이터에 적용하는 것이다. 예측(Prediction) 예측(Prediction)은 집단(구매자/비구매자) 변수보다 수치..

데이터 마이닝의 용어정리

데이터 마이닝의 용어정리 데이터 마이닝은 다양한 분야가 융합된 학문이기 때문에 동일한 의미에 대해서 다양한 용어가 사용된다. 또는 같은 용어를 사용하더라도 학문에 따라 비슷하지만 약간씩 다르게 해석 된다. 예를 들어 알고리즘 이라는 단어만 살펴 보아도 쓰이는 학문에 따라 다르게 해석 될 수도 있다. [알고리즘(algorithm)] 수학 용어사전: 잘 정의되고 명백한 규칙들의 집합 또는 유한 번 의 단계 내에서 문제를 풀기 위한 과정 컴퓨터 용어사전: 어떤 문제를 해결하기 위해 명확히 정의된 유한개의 규칙과 절차의 모임 전기 용어사전: 어떤 문제를 유한 회의 스텝으로 풀기 위한 명확하게 규정된 법칙. 소정의 수순 집합 비파괴 검사 용어사전 : 계산 순서 또는 문제 해결을 위한 순서 광물자원 용어사전 : 특..

데이터 마이닝의 사례

데이터 마이닝의 사례 데이터 마이닝이 우리 생활에 어떻게 활용되고 있을까? 데이터 마이닝을 이용한 실증석 사례를 몇 가지 정리해 보자. 다음 사례는 [한국정보화진흥원] 보고서 자료를 요약 하였다. 원문 링크 : http://www.itfind.or.kr/itfind/ittrend/organScrapView.htm?identifier=02-004-120508-000001 1. 미국 국세청, 탈세 방지 시스템 통한 국가 재정 강화 - 탈세 및 사기로 인한 국가의 재정 위기 가능성 증가 [추진내용] 대용량 데이터와 다양한 기술을 결합하여 탈세 및 사기 범죄 예방 시스템 구축 사기방지 솔루션 소셜 네트워크 분석 데이터 통합 및 지능형 감시 시스템 구축 [효과] 세금 누락 및 불필요한 세금 환급 절감의 효과 발생..

데이터 마이닝의 기원

데이터 마이닝의 기원 우리는 하늘에 먹구름이 있다고 무조건 비가 오지 않는 다는 것을 알고 있다. 다만 비가 올 수 있는 확률은 해가 있을 때 보다는 높기 때문에 비가 올 수도 있다 라고 판단하는 것이다. 이는 단순히 하늘의 색깔만으로는 판단하지 않을 것이다. 먹구름이 있을 때의 바람, 습도, 온도, 그리고 민감한 사람은 냄새(할머니들의 무릎 아픔까지)까지 다양한 환경 변수를 대입하여 비가 올 것이다 를 판단하는 것이다. 이처럼 데이터 마이닝이라는 것은 사실 이미 오래 전부터 우리의 생활 속에 깊이 관여 되어 있었다. 최근 많은 연구자들이 다양한 데이터를 처리하면서 데이터 마이닝 이라는 용어가 탄생하고 좀더 체계적으로 과학적으로 재해석 되면서 많이 부각 된 듯 하다. 또한 많은 도구가 발달 함께 따라 정..