SW Engineering/머신러닝 딥러닝 25

머신러닝 학습 방법(Supervised, Unsupervised, Reinforcement)

머신러닝 학습 방법(Supervised, Unsupervised, Reinforcement) 머신러닝의 데이터 학습 방법에는 지도 학습 (Supervised Learning)과 자율 학습 (Unsupervised Leaning), 강화 학습(Reinforcement Learning) 3가지 타입이 있다. 지도 학습 (Supervised Learning)과 자율 학습 (Unsupervised Leaning)에 사용되는 알고리즘은 아래 그림과 같이 나눌 수 있다. [지도 학습 (Supervised Learning)] 지도 학습(Supervised Learning)은 데이터에 대한 레이블(Label)-명시적인 정답-이 주어진 상태에서 컴퓨터를 학습시키는 방법이다. 이렇게 구성된 트레이닝 데이터셋으로 학습이 끝..

인공지능 / 머신러닝 / 딥러닝 개념

인공지능 / 머신러닝 / 딥러닝 개념 인공지능 (Artificial Intelligence)과 머신러닝 (Machine Learning), 딥러닝 (Deep Learning) 개념에 대해서 살펴본다. [인공지능 (Artificial Intelligence)] 인간의 지능으로 할 수 있는 사고, 학습, 자기 개발 등 컴퓨터가 대체할 수 있도록 하는 방법을 연구하는 분야이다. [머신러닝 (Machine Learning)] 사람이 학습하듯 컴퓨터에게 사람이 데이터를 입력시켜 학습을 시키는 방식으로, AI는 정확한 결과를 예측 할 수 있도록 제공된 학습 데이터를 다양한 알고리즘을 통하여 스스로 학습한다. 머신러닝은 정해진 명령보다 데이터를 기반으로 예측이나 결정을 이끌어 내기 위해 특정한 모델을 구축하는 방식으..

CNN (Convolutional Neural Network) 개념

CNN (Convolutional Neural Network) 개념 CNN(Convolutional Neural Network)은 이미지를 분석하기 위해 패턴을 찾는데 유용한 알고리즘으로 데이터에서 이미지를 직접 학습하고 패턴을 사용해 이미지를 분류한다. CNN의 핵심적인 개념은 이미지의 공간정보를 유지하며 학습을 한다. CNN은 필터링 기법을 인공 신경망에 적용함으로써 이미지를 더욱 효과적으로 처리하기 위해 Yann LeCun (https://en.wikipedia.org/wiki/Yann_LeCun)이 제안하였으며 (http://vision.stanford.edu/cs598_spring07/papers/Lecun98.pdf) 현재 딥 러닝에서 이용되고 있는 형태의 CNN이 제안되었다. 기존의 필터링 ..

파이썬과 OpenCV를 이용한 성별 및 연령 판별하기

파이썬과 OpenCV를 이용한 성별 및 연령 판별하기 · Version : Python 3.X, OpenCV 파이썬과 OpenCV 라이브러리를 활용하여 성별 및 연령을 판별해 보도록 한다. 이번 포스트에서는 프로그램 코드에 대한 설명이나 알고리즘에 대한 설명은 다루지 않는다. 참고 사이트에서 다운로드 받은 소스를 단순히 실행하고 결과를 얻음으로써, 이미지 분석에 대한 흥미를 유발하는데 목적이 있다. CV (Computer Vision)은 컴퓨터가 인간처럼 디지털 이미지와 비디오를 보고 식별할 수 있게 하는 연구분야 이다. Computer Vision은 디지털 이미지를 수집, 처리, 분석 및 이해하여 실제 세계에서 고차원적 데이터를 추출하여 결정에 사용할 수 있는 기호 또는 숫자 정보를 생성한다. 이 과정..

신경망 분석(Neural Network)

신경망 분석(Neural Network) [정의] 인간의 뇌를 통해 문제를 처리하는 방법과 비슷한 방법으로 문제를 해결하기 위해 컴퓨터에서 채택하고 있는 구조. 인간의 뇌가 기본 구조 조직인 뉴런(neuron)과 뉴런이 연결되어 일을 처리하는 것처럼 수학적 모델로서의 뉴런이 상호 연결되어 네트워크를 형성할 때 이를 신경망이라 한다. 생물학적인 신경망과 구분하여 인공 신경망(artificial neural network)이라고도 하며 신경망은 각 뉴런이 독립적으로 동작하는 처리기의 역할을 하기 때문에 병렬처리 (parallelism)가 뛰어나고 많은 연결선에 정보가 분산되어 있기 때문에 일부 뉴런에 문제가 발생하더라도 전체 시스템에 큰 영향을 주지 않는 결함 허용(fault tolerance) 능력이 있다..

Naive Bayes Classifier

Naive Bayes Classifier [정의] Bayes' Theorem에 근거한 분류법이며 naïve Bayes 알고리즘은 문서를 통계적 기법을 이용하여 클래스를 규정하는 알고리즘이다. Naive Bayes라는 이름의 Naïve는 이 알고리즘이 Bayes 기술을 사용하지만 있을 수 있는 종속성을 고려하지 않는 다는 것이다. 이 알고리즘은 입력 열과 예측 가능한 열 간의 관계를 검색하는 마이닝 모델을 신속하게 생성하는데 유용하다. 이 알고리즘을 사용하여 초기 데이터 탐색을 수행한 후 나중에 그 결과를 적용하여 보다 복잡하고 정확한 다른 알고리즘으로 추가 마이닝 모델을 만들 수 있다. [활용 사례] 대표적인 사용 사례가 스팸 메일 필터에 사용한다. 이전에 스팸으로 처리한 문서를 기반으로 앞으로 들어오는..

군집분석(Cluster Analysis)

군집분석(Cluster Analysis) 군집분석은 개인 또는 여러 개체 중에서 유사한 속성을 지닌 대상을 몇 개의 집단으로 그룹화 한 다음 각 집단의 성격을 파악함으로써 데이터 전체의 구조에 대해 이해하고자 하는 탐색적 분석 기법이다. N개의 관찰치를 대상으로 p개의 변수를 측정 했을 때 관측한 p개의 변수 값을 이용하여 N개의 관찰치 사이의 유사성 또는 비유사성의 정도를 측정하여 관찰치들을 가까운 순서대로 군집화 한다. 군집분석은 속성이 비슷한 잠재 고객들끼리 그룹화 하여 시장을 세분화하는 방법에 자주 활용되고 있으며 나이, 학력, 소득 제품, 매장 등 유사한 대상끼리 집단으로 묶고자 하는 경우 사용할 수 있다. 군집분석의 목적은 관찰치들의 유사성을 측정한 후에 가까운 순서대로 관찰치들을 군집화 하는..

의사결정나무(Decision Tree)

의사결정나무(Decision Tree) 의사결정나무(Decision Tree)는 의사결정규칙(Decision Rule)을 나무구조로 도표화하여 분류와 예측을 수행하는 분석 방법이다. 분류 또는 예측의 과정이 나무구조에 의한 추론규칙에 의해서 표현되기 때문에 다른 방법(신경망, 판별분석, 회귀분석 등)에 비하여 연구자가 그 과정을 쉽게 이해하고 설명할 수 있다는 장점을 가지고 있다. 장점단점해석의 용이성 교호효과의 해석 비모수적 모형비연속성 선형성 또는 주효과의 결여 비안정성 데이터마이닝에서의 의사결정나무는 탐색과 모형화라는 두 가지 특성을 모두 가지고 있다고 할 수 있다. 판별분석 또는 회귀분석등과 같은 모수적 모형을 분석하기 위하여 사전에 이상치를 검색하거나 분석에 필요한 변수 또는 모형에 포함되어야 ..

로지스틱 회귀분석(Logistic regression)

로지스틱 회귀분석(Logistic regression) 로지스틱 회귀분석은 분석하고자 하는 대상들이 두 집단 혹은 그 이상의 집단(다변수 데이터)으로 나누어진 경우에 개별 관측치들이 어느 집단으로 분류될 수 있는가를 분석하고 이를 예측하는 모형을 개발하는데 사용되는 대표적인 통계 알고리즘 이다. 로지스틱 회귀분석은 분석 목적이나 절차에 있어서는 일반 회귀분석과 유사하나 종속 변수가 명목척도로 측정된 범주형 질적 변수인 경우에 사용한다는 점에서 일반 회귀분석과 차이가 있다. 로지스틱 회귀분석은 판별분석과는 달리 예측변수에 범주형 변수를 투입 할 수 있는 장점이 있다.가장 일반적인 예로 로지스틱 회귀에서는 성별을 매우 자연스럽게 예측 변수로 포함할 수 있다. 종속 변수가 셋 이상인 경우에는 다항 로지스틱 분..

분할표본의 사용과 생성

분할표본의 사용과 생성 지도학습에서는 개발된 예측 또는 분류 모형을 새로운 데이터에 적용할 경우 얼마나 좋은 성과가 나타날 것인가에 대한 의문이 제기 된다. 특히 모형이 실제로 실행 될 때 가장 좋은 성과를 보이는 것으로 생각되는 모형을 선택 할 수 있도록 다양한 모형들 사이의 성과를 비교하는 것이 주요 관심사가 된다. 일반적으로 생각하기에 미래의 데이터를 가진 주요 성과변수를 잘 분류하거나 예측하는 모형을 선택하는 것이 최선이라고 생각할 수 있지만 모형의 구축과 모형의 성과 평가에 동일한 데이터를 사용할 경우 모형의 편의(bias)가 발생한다. 같은 데이터를 적용하여 가장 좋은 성과를 보이는 모형을 선택할 때 이 모형의 성과가 좀더 좋은 이유는 다음과 같다. 선택된 모형이 비교우위의 모형이기 때문이다...