상관분석과 단순&다중회귀분석
- 상관관계분석(Correlation Analysis) : 두 변수간의 선형관계를 조사하는 것
- 단순회귀분석(Simple Regression Analysis) : 두 변수간의 인과관계를 조사하는 방법
- 다중회귀분석(Multiple Regression Analysis) : 두 개 이상의 독립변수들과 하나의 종속변수의 관계를 분석하는 기법

상관관계분석
상관관계분석은 변수 사이의 원인과 결과가 아닌, 서로 상관적 영향이 있는지를 분석하는 것이다.
ex) 상관관계가 0인 경우

하지만 x와 y는 정말로 상관관계 즉, 연관성이 없을까?
x는 y의 절대값이라는 관계를 가지고 있다.
그러니 상관관계분석만으로 두 변수의 연관성에 대해 확정짓기는 힘들다.
회귀분석
회귀분석은 독립변수가 하나면 단순회귀분석, 두개 이상이면 다중회귀분석이라 하고,
독립변수가 종속변수에 얼마나 영향을 주는지 분석하는 것이다.
*독립변수(예측변수) : 영향을 미칠 것으로 생각되는 변수
*종속변수(기준변수) : 영향을 받을 것으로 생각되는 변수


- Y : 종속변수 값
- X : 독립변수 값
- β : 회귀계수
- ε : 다른 요소 때문에 발생하는 오류를 나타내는 값 즉, 오차값
회귀계수
표준화 회귀계수
모든 변수(Y,X)를 평균 0, 분산 1을 가지도록 표준화한 후 회귀식을 추정함으로써 계산한다.
특히 독립변수들이 상이한 척도를 가진 경우에 이러한 독립변수들간의 상대적 중요성을 판단하기 위한 것이다.
비표준화 회귀계수
각 변수의 측정치를 그대로 사용하여 각 독립변수들의 종속변수에 대한 절대적 영향력을 표현한다.
회귀계수를 구하는방법(선형 회귀)
다양한 회귀계수에 대한 오류를 계산한다.
우리가 구하고자 하는 것은 데이터 전체에서 발생하는 총 오류값이다.
만약 X1의 예측값이 결과값 Y1에 비해 너무 높고, X2의 예측값이 Y2에 비해 너무 낮다면 오류값이 서로 상쇄된다.
따라서 오차의 제곱의 합(error sum of squares: SSE)이 최소가 되는 회귀계수를 추정한다.
다양한 회귀계수에 대한 오류를 계산하여 SSE가 최소인 회귀계수를 추정하는 대표적인 방법은,
- 최소자승법(Least Square Approximation)
- 경사하강법(Gradient Descent)
다음에는 위 두가지에 대해 좀 더 자세히 알아봐야겠다.