데이터 전처리(preprocessing)와 정제(Cleansing)과정 데이터 수집은 내부 데이터(이미 내가 가지고 있거나 운용할 수 있는 데이터)와 외부 데이터(카드사의 정보, 기타 외부 기관의 정보)가 있으며 대량의 데이터로부터 무작위로 표본을 추출한다. 이렇게 수집된 데이터는 그대로 활용 할 수가 없다. 수집한 데이터가 타당한 조건의 데이터인지 검증 및 정제를 하여 활용 할 수 있는 데이터로 만들어야 한다. 잘못된 샘플링(수집된 데이터) 데이터는 엉뚱한 결과를 발생 시키므로 전처리 미 및 정제 과정은 매우 중요하다. 변수의 유형 변수를 분류하는 방법에는 여러 가지가 있으며 가장 기본적으로는 수치형, 텍스트형(문자형)이 있다. 이 변수들은 다시 연속형(주어진 범위의 실수), 정수형(정수값), 범주형(..