반응형

데이터 마이닝이란?(Data mining)

 

많은 데이터 가운데 숨겨져 있는 유용한 상관관계를 발견하여 미래에 실행 가능한 정보를 추출하고 의사결정에 이용하는 과정이다.

 

데이터베이스로부터 과거에는 알지 못했지만 데이터 속에서 새로운 패턴(모델)을 발견하여 미래에 실행 가능한 정보를 추출해 내고 의사 결정에 이용한다.

모든 정보의 탐색 작업이 데이터 마이닝으로 간주 되지는 않는다. 사용자의 정보 검색 또는 검색 사이트 등에 질의를 통한 작업등은 아무리 복잡한 알고리즘을 사용하였더라도 정보 검색(Information retrieval) 범주에 속한다.

 

데이터 마이닝은 다른 말로 KDD(knowledge-discovery in database)라고 부른다. 데이터 마이닝은입력 데이터를 변환하여 유용한 정보를 도출하는 데이터베이스에서 지식탐사(KDD)의 핵심 과정이다. 대용량 데이터베이스로부터 지금까지 몰랐던 정보를 추출 하는 것이다. 다양한 알고리즘 및 패턴 기술, 통계 기법 등을 활용하여 의미 있는 새로운 상관관계, 패턴, 추세를 발견 할 수 있다.

 

 

비즈니스 인텔리전스(Business Intelligence)는 최종사용자 질의 및 보고(End User Qeury and Reporting) 를 포괄하는 의미로 1990년 초 가트너 그룹의 Howard Dresner에 의해 만들어진 용어이다. 이는 경영진과 경영 분석가들이 데이터를 통해 합리적 의사결정을 내릴 수 있도록 데이터를 수집, 저장, 처리, 분석하는 일련의 기술, 응용 시스템을 말한다. 이 개념은 매우 포괄적 의미를 가지고 있으며 데이터웨어하우스(Data Warehouse), 데이터 질의 미 및 보고 도구(Data Query and Reporting tools), 데이터 마이닝(Data Mining), 비즈니스 성과관리(BPM : Business Performance Management)등을 포함 한다.

 

 

 

데이터 마이닝의 기원은 통계학과 기계학습(Machine Learning)으로 알려진 두 학문 분야의 컨버전스로 볼 수 있다. 이미 기존 통계학에서는 데이터를 탐색하고 모델을 구축하는 다양한 기법들이 존재해 있다. 로지스틱 회기분석, 클러스터 분석 등이 포함 된다. 기계학습으로는 의사결정나무(decision tree)또는 신경망(neural networks)등을 제공 한다. 기계학습 기법은 강력한 계산능력에 의존하며 전통적인 통계 모형보다는 덜 구조화되어 있다.

 

 

전통적인 통계학은 추론(하나의 패턴 또는 우연히 발생하였는지 결정하는 것)에 초점을 두고 있지만 데이터 마이닝은 다양한 방식으로 대량의 데이터 집합을 다루기 때문에 추론에서 요구하는 것처럼 엄격한 제약을 둘 필요가 없다.

이로 인해 데이터 마이닝에 대한 접근은 과적합화(over fitting)의 위험성에 쉽게 노출 된다. 이 뜻은 하나의 모형이 모형 개발에 사용된 표본 데이터에 너무 적합화 되면 이 모형은 데이터가 갖는 구조적 특성 뿐만 아니라 우연적 특수성까지 모두 반영하게 되어 과적합화 현상이 발생하는 것이다. 요약하면 오염된 데이터를 적합 시킨 모델이 적용 될 수도 있다는 것이다.

 

 

반응형

+ Recent posts