[BOAZ 세션 리뷰] 01-2 회귀
회귀 Regression
회귀 분석 정의
회귀 분석은 독립변수 X로 종속변수 Y를 예측하는 것을 말한다.
이때의 회귀식은 선형회귀와 비선형회귀로 나뉜다.
선형회귀는 각 독립변수의 항들이 선형적으로 연관되어 있는 것을 말하는 반면, 비선형회귀는 비선형식을 나타낸다.
이는 복잡한 관계를 표현하기 위해 이용되며, 딥러닝에 이용된다.
선형 회귀 & 다중 회귀
단순 선형 회귀와 다중 선형 회귀는 독립변수 X가 1차원이냐, 2차원 이상의 차원을 가지냐에 따라 구분된다.
또한 선형식은 잔차 제곱합 SSE를 최소화하는 w,b로 구성되는 선형식을 사용한다.
이를 구하는 방법은 수식으로 구할 수 있는데, 편미분을 통해 구할 수 있다.
참고로 다중회귀에서는 다중공산성 문제를 해결하기 위해 조치를 취하여야 한다.
비용함수 Cost Function
손실함수는 하나의 샘플에 대한 loss, 비용합수는 손실함수를 더하여 평균 낸 것을 말하고, 회귀에서는 주로 MSE를 사용한다.
이 Cost Function의 값을 줄이기 위하여 경사하강법을 사용한다.
이때 learning rate의 값을 설정해 주어야 하는데,
너무 작으면 수렴이 안될 수 있고, 너무 크면 cost 값이 발산할 수 있기 때문이다.
규제
과적합을 막기 위한 규제가 존재한다.
L1 - 라쏘 회귀 : 다른 회귀계수를 0으로 만드는 성향이 있어 이를 이용할 수도 있다.
L2 - 릿지 회귀 : 회귀 계수를 골고루 뿌린다.
둘다 - 엘라스틱 넷
성능 평가
MSE, RMSE, MAE, MAPE 등 여러 성능지표들이 존재
Leave a comment