기술통계
중심 경향치
중심 경향치는 데이터 집합 전체를 대표하는 하나의 값으로, 데이터가 어디에 집중되어 있는지 보여줍니다. 가장 일반적으로 사용되는 중심 경향치는 다음과 같습니다.
-평균 (Mean): 모든 데이터 값을 더한 후 데이터의 개수로 나눈 값입니다. 이상치(극단적인 값)에 민감하게 반응하는 경향이 있습니다.
계산 방법: (모든 데이터 값의 합) / (데이터의 개수)
활용: 전반적인 데이터의 수준을 파악하거나, 여러 집단의 평균을 비교할 때 유용합니다. 예를 들어, 학생들의 평균 시험 점수, 특정 제품의 평균 판매량 등을 계산할 수 있습니다.
-중앙값 (Median): 데이터를 크기 순서대로 나열했을 때 가장 중앙에 위치하는 값입니다. 데이터의 개수가 짝수일 경우에는 중앙에 있는 두 값의 평균을 사용합니다. 이상치의 영향을 덜 받기 때문에, 데이터에 극단적인 값이 포함되어 있을 때 평균보다 더 나은 대표 값을 제공할 수 있습니다.
계산 방법: 데이터를 정렬한 후, (데이터 개수 + 1) / 2 번째 값 (홀수 개수일 경우), 또는 중앙 두 값의 평균 (짝수 개수일 경우).
활용: 소득 분포, 부동산 가격 등 극단적인 값이 존재할 수 있는 데이터를 분석할 때 유용합니다.
-최빈값 (Mode): 데이터 집합에서 가장 자주 나타나는 값입니다. 데이터에 여러 개의 최빈값이 존재할 수도 있고, 없을 수도 있습니다. 질적 데이터에도 적용할 수 있다는 장점이 있습니다.
계산 방법: 데이터 집합에서 빈도수가 가장 높은 값(들)을 찾습니다.
활용: 선호도 조사 결과 (가장 선호하는 색상, 브랜드 등), 판매 데이터 분석 (가장 많이 팔린 상품) 등에 활용됩니다.
산포도
산포도는 데이터들이 얼마나 흩어져 있는지, 즉 변동성을 나타내는 지표입니다. 산포도를 통해 데이터의 안정성, 예측 가능성 등을 파악할 수 있습니다. 주요 산포도는 다음과 같습니다.
-범위 (Range): 데이터의 최댓값에서 최솟값을 뺀 값입니다. 계산이 간단하지만, 극단적인 값에만 의존하므로 데이터 전체의 흩어진 정도를 제대로 반영하지 못할 수 있습니다.
계산 방법: 최댓값 - 최솟값
활용: 데이터의 대략적인 범위를 빠르게 파악하는 데 사용될 수 있습니다.
-분산 (Variance): 각 데이터 값이 평균으로부터 얼마나 떨어져 있는지 제곱하여 평균한 값입니다. 데이터의 흩어진 정도를 수치적으로 나타내지만, 제곱된 단위로 표현되므로 실제 데이터 값과의 직관적인 비교가 어렵습니다.
계산 방법: 각 데이터 값에서 평균을 뺀 값을 제곱한 후, 모두 더하여 데이터의 개수로 나눕니다 (모집단 분산). 표본 분산의 경우 데이터 개수 - 1로 나눕니다.
활용: 데이터의 변동성을 정량적으로 비교할 때 사용됩니다.
-표준편차 (Standard Deviation): 분산의 제곱근 값입니다. 분산의 단위를 실제 데이터 값과 동일하게 만들어 데이터의 흩어진 정도를 보다 직관적으로 이해할 수 있도록 합니다.
계산 방법: 분산 값의 제곱근을 계산합니다.
활용: 데이터가 평균 주위에 얼마나 밀집되어 있는지 파악하고, 이상치를 탐지하는 데 유용합니다.
-사분위수 범위 (Interquartile Range, IQR): 데이터를 크기 순서대로 정렬했을 때, 1사분위수(Q1, 하위 25%)와 3사분위수(Q3, 상위 25%)의 차이입니다. 중앙값과 마찬가지로 이상치의 영향을 덜 받으며, 데이터의 중간 50%가 퍼져 있는 정도를 나타냅니다.
계산 방법: Q3 - Q1
활용: 데이터의 중심 부근의 변동성을 파악하고, 이상치를 시각적으로 탐지하는 데 사용되는 상자 그림(Box Plot)의 주요 구성 요소입니다.
분포의 모양
분포의 모양은 데이터가 어떻게 분포되어 있는지를 시각적으로 나타내며, 비대칭성(Skewness)과 뾰족함(Kurtosis)을 통해 그 특징을 수치화할 수 있습니다.
-왜도 (Skewness): 데이터 분포의 비대칭 정도를 나타내는 지표입니다.
정규 분포 (Skewness = 0): 평균, 중앙값, 최빈값이 거의 같고 좌우 대칭인 종 모양의 분포입니다.
오른쪽 꼬리 분포 (Positive Skewness): 평균 > 중앙값 > 최빈값 순으로 나타나며, 오른쪽 꼬리가 긴 형태입니다. 작은 값들이 많이 나타나고, 극단적으로 큰 값들이 드물게 나타나는 경우입니다.
왼쪽 꼬리 분포 (Negative Skewness): 최빈값 > 중앙값 > 평균 순으로 나타나며, 왼쪽 꼬리가 긴 형태입니다. 큰 값들이 많이 나타나고, 극단적으로 작은 값들이 드물게 나타나는 경우입니다.
-첨도 (Kurtosis): 데이터 분포의 뾰족한 정도를 나타내는 지표입니다. 정규 분포의 첨도를 기준으로 비교합니다.
정규 분포 (Kurtosis ≈ 3): 중간 정도의 뾰족함을 가집니다.
첨두 분포 (Leptokurtic, Kurtosis > 3): 정규 분포보다 더 뾰족하고 꼬리가 두꺼운 형태입니다. 평균 근처에 많은 값이 몰려있고, 극단적인 값도 자주 나타납니다.
평탄 분포 (Platykurtic, Kurtosis < 3): 정규 분포보다 더 평평하고 꼬리가 얇은 형태입니다. 값들이 비교적 고르게 분포되어 있고, 극단적인 값은 드물게 나타납니다.
데이터 시각화
데이터 시각화는 수집된 데이터를 그림이나 그래프 등의 시각적인 형태로 표현하여 데이터의 특징, 패턴, 관계 등을 쉽게 파악하도록 돕습니다. 기술 통계 분석 결과를 효과적으로 전달하는 중요한 도구입니다.
히스토그램 (Histogram): 연속형 데이터의 분포를 막대 그래프 형태로 나타냅니다. 데이터를 일정한 구간으로 나누고, 각 구간에 속하는 데이터의 빈도수를 막대의 높이로 표현합니다. 데이터의 중심 경향, 산포, 분포의 모양 등을 파악하는 데 유용합니다.
막대 그래프 (Bar Chart): 범주형 데이터의 빈도나 비율을 막대의 길이로 나타냅니다. 여러 범주 간의 크기를 비교하는 데 효과적입니다.
원 그래프 (Pie Chart): 범주형 데이터의 각 범주가 전체에서 차지하는 비율을 원의 부채꼴 넓이로 나타냅니다. 전체에 대한 각 부분의 상대적인 크기를 비교하는 데 유용합니다.
상자 그림 (Box Plot): 데이터의 최소값, 1사분위수, 중앙값, 3사분위수, 최댓값을 이용하여 데이터의 분포와 이상치를 시각적으로 나타냅니다. 여러 집단의 분포를 비교하는 데 유용합니다.
산점도 (Scatter Plot): 두 개의 연속형 변수 간의 관계를 점으로 나타냅니다. 변수 간의 상관 관계, 추세 등을 파악하는 데 사용됩니다.
기술 통계량 해석과 활용
기술 통계량은 단순히 숫자를 나열하는 것이 아니라, 데이터의 의미를 파악하고 실제 문제 해결에 활용하는 데 그 중요성이 있습니다.
데이터 요약 및 이해: 기술 통계량은 복잡한 데이터 집합의 주요 특징을 간결하게 요약하여 데이터에 대한 기본적인 이해를 돕습니다.
집단 간 비교: 여러 집단의 중심 경향치와 산포도를 비교하여 집단 간의 차이점이나 유사점을 파악할 수 있습니다. 예를 들어, 두 가지 교육 방법의 효과를 비교할 때 학생들의 평균 성적과 성적 분포를 비교할 수 있습니다.
이상치 탐지: 극단적인 값을 보이는 이상치는 데이터 분석 결과에 큰 영향을 미칠 수 있습니다. 산포도와 시각화 도구를 통해 이상치를 탐지하고, 그 원인을 파악하여 데이터 분석의 정확성을 높일 수 있습니다.
추론 통계의 기초: 기술 통계량은 추론 통계를 수행하기 위한 기초 정보를 제공합니다. 표본의 특징을 파악하는 것은 모집단의 특징을 추론하는 데 중요한 첫 단계입니다.
의사 결정 지원: 기술 통계 분석 결과는 합리적인 의사 결정을 내리는 데 중요한 근거를 제공합니다. 예를 들어, 제품 판매량의 추세를 파악하여 재고 관리 계획을 수립하거나, 고객 만족도 조사 결과를 분석하여 서비스 개선 방안을 마련할 수 있습니다.