[BOAZ 세션 리뷰] 01-1 분류
머신러닝
AI, ML, DL은 관련 단어로 상당히 많이 거론된다.
이들을 하나씩 살펴보자면
AI : Artificial Intelligence - 사람의 지적 능력을 컴퓨터를 통해 구현하는 기술
ML : Machine Learning - “사람이 정한 모델과 특징 추출 방법”을 이용하여 데이터를 기반으로 학습하여 추론할 수 있게 하는 기술
DL : Deep Learning - 인공 신경망을 활용해 만든 ML 기술로, 빅데이터 학습에 적합
따라서 포함 관계는 아래와 같다.
AI>ML>DL
머신러닝 vs 딥러닝
ML과 DL의 주된 차이는 사람의 개입 여부이다.
ML은 주어진 데이터를 인간이 먼저 처리한다. 예를들어 KNN, LinearRegression 과 같이 사람이 컴퓨터에게 특정 패턴을 추출하는 방법을 지시하고 이 후 컴퓨터가 스스로 데이터의 특징을 분석하고 축적한다.
DL은 ML에서 사람의 개입을 없앤다. 데이터만 주면 알아서 컴퓨터가 학습한다.
특정 알고리즘이 아니라 인공 신경망을 통하여 컴퓨터가 학습을 진행한다.
ML의 WorkFlow
훈련 데이터 -> 입력 -> 특징 추출 -> 분류 -> 출력
DL의 WorkFlow
훈련 데이터 -> 특징 추출 & 분류 -> 출력
지도학습, 비지도학습
ML(DL)의 학습 방법에는 크게 3가지가 있다.
지도학습(Supervised Learning) : 문제와 답을 알려주고 학습 -> 분류, 회귀
비지도학습(Unsupervised Learning) : 답을 알려주지 않고 학습
강화학습(Reinforcement Learning) : 보상을 통해 학습
여기서 이번에 다루고자 하는 분류와 회귀는 지도학습에 속한다.
분류는 명목형 자료를 예측하는 것을 말하고
회귀난 수치형 자료를 예측하는 것을 칭한다.
분류
“오늘 아침 기분이 좋아”라는 문장이 있다.
이 문장은 긍정일까? 부정일까?
이와 같이 데이터의 클래스를 “분류”하는 것을 의미한다.
Naive Bayes
조건부확률을 활용한 베이즈 정리를 이용한 알고리즘
간단하고 빠르지만, 피쳐들이 독립성이 있어야 한다는 단점 존재
KNN
K-Nearest Neighbor. 말 그대로 주변 데이터를 파악하고 가장 가까운 데이터를 찾아 레이블을 결정한다.
여기서 거리 측도를 유클리드 거리, 맨하튼 거리를 사용한다.
로지스틱 회귀
로지스틱 “회귀”라는 이름과 다르게 “분류” 알고리즘을 나타낸다.
선형 회귀를 진행하여 영역에 따라 CLASS를 분류한다.
이때 선형 회귀를 단순히 진행하는 것이 아니라 “로지스틱 함수” (혹은 시그모이드함수)를 적용하여 [0,1]사이의 범위가 되도록 조정한다.
여기서 로직 변환을 통하여 선형관계를 만들기도 한다.
성능 평가
confusion Matrix
모델 성능 측정을 위한 행렬
여러가지 측도들이 존재한다. Acurracy, Precision, Recall, F1 Score 등이 존재
Leave a comment