로지스틱 회귀분석(Logistic regression)
로지스틱 회귀분석은 분석하고자 하는 대상들이 두 집단 혹은 그 이상의 집단(다변수 데이터)으로 나누어진 경우에 개별 관측치들이 어느 집단으로 분류될 수 있는가를 분석하고 이를 예측하는 모형을 개발하는데 사용되는 대표적인 통계 알고리즘 이다.
로지스틱 회귀분석은 분석 목적이나 절차에 있어서는 일반 회귀분석과 유사하나 종속 변수가 명목척도로 측정된 범주형 질적 변수인 경우에 사용한다는 점에서 일반 회귀분석과 차이가 있다. 로지스틱 회귀분석은 판별분석과는 달리 예측변수에 범주형 변수를 투입 할 수 있는 장점이 있다.가장 일반적인 예로 로지스틱 회귀에서는 성별을 매우 자연스럽게 예측 변수로 포함할 수 있다.
종속 변수가 셋 이상인 경우에는 다항 로지스틱 분석이 사용되며 두가지의 가능한 값만 가질 경우에는 이항 로지스틱 분석을 사용한다. 성별의 경우는 가능한 값이 두 개이기 때문에 이항 로지스틱 변수를 사용 한다.
[로지스틱 회귀분석 적용 예]
- 연령에 따른 자동차 소유 유무, 연간 소득 등과 같은 특성이 개인 신용 여부에 어떠한 영향을 미치는가?
- 유권자의 출생 지역, 성별, 거주지역, 학력 등이 선호하는 후보선택에 어떠한 영향을 미치는가?
- 흡연 유무, 주량, 직업, 비만 정도 등의 특성이 특정한 질병발생에 어떠한 영향을 미치는가?
- 선택대상이 되는 상표들에 대한 평가와 응답자의 특성이 선호상표 선택에 어떠한 영향을 미치는가?
[이항 로지스틱회귀 모형]
이항 로지스틱 회의 모형은 다음과 같다.
괄호 안의 부분을 logit 이라 부른다. P는 개별 케이스가 어던 집단에 속할 확률이고 1-p는 그 집단에 속하지 않을 확률이다. 따라서 이 값이 높을수록 그 집단에 속할 확률이 높다는 것을 의미한다. 이 값을 n개의 예측 변수를 이용하여 예측하겠다는 것이 로지스틱 회귀분석의 목적이다.
회귀계수가 양(+)의 값일 때 그 변수 값이 높아질수록 특정 집단에 속할 확률이 높아지고 음(-)의 값일 높을수록 특정 집단에 속할 확률은 낮아진다. 이 계수들을 해석함으로써 어떤 변수가 특정 집단에 속할 확률을 높이거나 낮추는지 결정 할 수 있다.
사건E의 발생확률과 독립변수 선형 결합간의 관계
'SW Engineering > 머신러닝 딥러닝' 카테고리의 다른 글
군집분석(Cluster Analysis) (0) | 2015.07.16 |
---|---|
의사결정나무(Decision Tree) (0) | 2015.07.16 |
분할표본의 사용과 생성 (0) | 2015.07.16 |
데이터 전처리(preprocessing)와 정제(Cleansing)과정 (0) | 2015.07.16 |
데이터 마이닝 수행 단계 (0) | 2015.07.16 |