상관분석
상관 분석의 개념과 목적
관계성의 파악: 상관 분석의 주된 목적은 변수들 사이의 통계적인 연관성을 확인하는 것입니다. 예를 들어, 광고 지출액과 제품 판매량 사이에 어떤 관계가 있는지, 학생들의 공부 시간과 시험 성적 간에는 어떤 연관성이 있는지 등을 파악할 수 있습니다.
강도의 측정: 상관 계수(Correlation Coefficient)라는 통계량을 이용하여 두 변수가 얼마나 밀접하게 선형적으로 관련되어 있는지를 -1부터 +1 사이의 값으로 나타냅니다. 0에 가까울수록 관계가 약하고, -1이나 +1에 가까울수록 관계가 강합니다.
방향성의 확인: 상관 계수의 부호(+ 또는 -)는 관계의 방향을 나타냅니다. 양의 상관관계는 한 변수가 증가할 때 다른 변수도 증가하는 경향을 보이는 것을 의미하며, 음의 상관관계는 한 변수가 증가할 때 다른 변수는 감소하는 경향을 보이는 것을 의미합니다.
피어슨 상관 계수
계산 원리: 피어슨 상관 계수는 두 변수의 공분산을 각 변수의 표준편차의 곱으로 나눈 값입니다. 이는 두 변수가 평균으로부터 얼마나 함께 벗어나는지를 표준화하여 나타낸 것입니다.
값의 범위와 해석: 피어슨 상관 계수는 -1부터 +1 사이의 값을 가집니다.
+1: 완벽한 양의 선형 상관관계 (한 변수가 증가하면 다른 변수도 정확히 비례하여 증가).
-1: 완벽한 음의 선형 상관관계 (한 변수가 증가하면 다른 변수는 정확히 비례하여 감소).
0: 선형적인 관계가 없음.
0 < |r| < 0.3: 약한 선형 상관관계.
0.3 ≤ |r| < 0.7: 중간 정도의 선형 상관관계.
0.7 ≤ |r| < 1: 강한 선형 상관관계.
가정: 피어슨 상관 계수를 사용할 때 몇 가지 중요한 가정이 충족되어야 합니다.
등간 또는 비율 척도: 분석 대상 변수는 등간 척도 또는 비율 척도로 측정되어야 합니다.
선형성: 변수 간의 관계가 비선형적이라면 피어슨 상관 계수는 관계의 강도를 제대로 반영하지 못할 수 있습니다.
정규성: 각 변수가 정규 분포를 따르는 것이 이상적이지만, 표본 크기가 충분히 크다면 어느 정도 벗어나도 robust한 결과를 얻을 수 있습니다.
이상치: 이상치는 상관 계수 값에 큰 영향을 미칠 수 있으므로, 분석 전에 이상치 존재 여부를 확인하고 적절히 처리해야 합니다.
스피어만 상관 계수
계산 원리: 각 변수의 값을 순위로 변환한 후, 이 순위들 사이의 피어슨 상관 계수를 계산합니다. 동점 값이 있는 경우 평균 순위를 부여합니다.
활용:
변수가 서열 척도로 측정되었거나, 등간/비율 척도이지만 정규성 가정을 만족하지 못하는 경우에 유용합니다.
변수 간의 관계가 반드시 선형적이지 않더라도, 한 변수가 증가함에 따라 다른 변수가 일관된 방향으로 변화하는지(단조성)를 파악하고자 할 때 적합합니다.
이상치의 영향을 덜 받기 때문에, 데이터에 극단적인 값이 포함되어 있을 때 피어슨 상관 계수보다 더 robust한 결과를 제공할 수 있습니다.
값의 범위와 해석: 스피어만 상관 계수 역시 -1부터 +1 사이의 값을 가지며, 그 해석은 피어슨 상관 계수와 유사합니다. +1은 완벽한 양의 단조 증가 관계, -1은 완벽한 음의 단조 감소 관계, 0은 단조로운 관계가 없음을 의미합니다.
상관 관계와 인과 관계
가짜 상관 (Spurious Correlation): 통계적으로 유의미한 상관관계가 관찰되었지만, 실제로는 두 변수 사이에 아무런 인과적인 관련이 없는 경우입니다. 이는 우연히 발생하거나, 제3의 숨겨진 변수(매개 변수 또는 외생 변수)가 두 변수 모두에 영향을 미쳐 겉으로 보기에 상관관계가 있는 것처럼 나타날 수 있습니다.
인과 관계 추론의 어려움: 인과 관계를 밝히기 위해서는 통계적 분석 외에도 실험 설계, 시간적 선후 관계 확인, 다른 잠재적 요인 통제 등 엄격한 과학적 방법론이 요구됩니다. 상관 분석은 변수 간의 연관성을 보여주는 초기 단계의 분석일 뿐, 인과 관계를 단정할 수 있는 근거를 제공하지 않습니다.
상관 분석의 활용과 한계
활용 분야
탐색적 데이터 분석 (Exploratory Data Analysis, EDA): 변수 간의 잠재적인 관계를 파악하고, 데이터의 패턴을 발견하는 데 활용됩니다.
변수 선택: 회귀 분석 등 다른 통계 분석 모델을 구축할 때, 관련성이 높은 변수를 선택하는 데 도움을 줄 수 있습니다.
예측 모델 개발: 변수 간의 강한 상관관계는 한 변수의 값을 이용하여 다른 변수의 값을 예측하는 모델 개발의 기초가 될 수 있습니다.
마케팅: 광고 효과 분석, 고객 만족도와 재구매 의도 간의 관계 분석 등에 활용됩니다.
금융: 주식 수익률 간의 상관관계 분석, 위험 관리 등에 활용됩니다.
한계
선형 관계 측정의 한계: 피어슨 상관 계수는 선형적인 관계만을 측정하므로, 비선형적인 관계는 제대로 파악하지 못할 수 있습니다.
인과 관계 부재: 상관 관계가 있다고 해서 반드시 인과 관계가 존재하는 것은 아닙니다.
이상치 민감성: 특히 피어슨 상관 계수는 이상치의 영향을 크게 받을 수 있습니다.
전체 관계 파악의 어려움: 두 변수 간의 관계만을 개별적으로 분석하므로, 여러 변수 간의 복잡한 상호작용을 파악하기 어려울 수 있습니다.