통계학

확률분포

확률변수

확률변수: 숫자로 표현되는 불확실성 (Random Variable: Quantifying Uncertainty)
확률분포를 이해하기 위한 첫걸음은 확률변수(Random Variable)의 개념을 명확히 하는 것입니다. 확률변수는 어떤 확률 실험의 결과에 따라 그 값이 무작위로 결정되는 변수를 의미합니다. 즉, 실험의 각 결과에 하나의 실수 값을 대응시키는 함수라고 할 수 있습니다.

-이산 확률변수 (Discrete Random Variable): 셀 수 있는 값들만 가질 수 있는 확률변수입니다. 예를 들어, 동전 던지기 횟수, 주사위 눈의 수, 특정 기간 동안 발생하는 사건의 횟수 등이 이산 확률변수에 해당합니다. 이산 확률변수는 각 값이 나타날 확률을 명확하게 정의할 수 있으며, 이러한 확률들의 합은 1이 됩니다.
-연속 확률변수 (Continuous Random Variable): 특정 범위 내의 모든 실수 값을 가질 수 있는 확률변수입니다. 예를 들어, 사람의 키, 몸무게, 온도, 시간 등이 연속 확률변수에 해당합니다. 연속 확률변수의 특정 값 하나가 나타날 확률은 0으로 간주하며, 특정 구간 내의 값을 가질 확률을 확률밀도함수(Probability Density Function, PDF)를 이용하여 계산합니다.

이산 확률분포

이산 확률분포(Discrete Probability Distribution)는 이산 확률변수가 가질 수 있는 각 값과 그 값이 나타날 확률을 짝지어 나타낸 것입니다. 이는 확률 질량 함수(Probability Mass Function, PMF) 또는 확률 함수라고도 표현됩니다.

확률 질량 함수 (PMF): 각 이산 확률변수 값 x에 대해 P(X=x)로 표현되는 함수로, 확률변수 X가 특정 값 x를 가질 확률을 나타냅니다. 모든 가능한 값에 대한 확률의 합은 반드시 1이어야 합니다 (∑P(X=x)=1).
누적 분포 함수 (Cumulative Distribution Function, CDF): 확률변수 X가 특정 값 x보다 작거나 같을 확률을 나타내는 함수로, F(x)=P(X≤x)=∑ 
t≤x
​
P(X=t)로 정의됩니다. CDF는 확률분포의 전체적인 형태를 파악하는 데 유용합니다.
주요 이산 확률분포:
베르누이 분포 (Bernoulli Distribution): 결과가 성공(1) 또는 실패(0)의 두 가지 중 하나로만 나타나는 실험에 대한 확률분포입니다. 예를 들어, 동전 던지기 (앞면 또는 뒷면), 제품 검사 (합격 또는 불합격) 등이 있습니다.
이항 분포 (Binomial Distribution): 동일한 베르누이 시행을 독립적으로 n번 반복했을 때, 성공 횟수의 확률분포입니다. 예를 들어, 10번의 동전 던지기에서 앞면이 나오는 횟수, 100개의 제품 검사에서 불량품의 개수 등이 있습니다.
포아송 분포 (Poisson Distribution): 단위 시간 또는 단위 공간 내에서 발생하는 사건의 횟수에 대한 확률분포입니다. 드문 사건의 발생 빈도를 모델링하는 데 유용합니다. 예를 들어, 특정 시간 동안 발생하는 교통사고 건수, 웹사이트 방문자 수 등이 있습니다.

연속 확률분포

연속 확률분포(Continuous Probability Distribution)는 연속 확률변수가 특정 구간 내의 값을 가질 확률을 나타냅니다. 이는 확률 밀도 함수(PDF)를 이용하여 설명됩니다.

주요 연속 확률분포:
균등 분포 (Uniform Distribution): 특정 구간 내의 모든 값이 동일한 확률 밀도를 가지는 분포입니다. 예를 들어, 고장 나지 않은 난수 생성기의 생성 값 등이 있습니다.
정규 분포 (Normal Distribution): 통계학에서 가장 중요하고 널리 사용되는 분포 중 하나로, 평균을 중심으로 좌우 대칭인 종 모양의 분포를 가집니다. 키, 몸무게, 시험 점수 등 많은 자연 현상과 사회 현상이 근사적으로 정규 분포를 따릅니다.
지수 분포 (Exponential Distribution): 어떤 사건이 처음 발생할 때까지 걸리는 시간에 대한 확률분포입니다. 포아송 과정과 밀접한 관련이 있으며, 수명 분석, 대기 시간 분석 등에 활용됩니다.

확률분포의 특징

표준편차 (Standard Deviation, SD(X) 또는 σ): 분산의 양의 제곱근으로, 데이터의 흩어진 정도를 실제 데이터 값과 동일한 단위로 나타냅니다. 표준편차가 작을수록 데이터가 평균 근처에 밀집되어 있음을 의미합니다.
왜도 (Skewness): 확률분포의 비대칭성을 나타내는 지표입니다. 왜도가 0이면 대칭 분포, 양수이면 오른쪽으로 꼬리가 긴 분포, 음수이면 왼쪽으로 꼬리가 긴 분포를 나타냅니다.
첨도 (Kurtosis): 확률분포의 뾰족한 정도를 나타내는 지표입니다. 정규 분포의 첨도를 기준으로 더 뾰족하거나 평평한 정도를 나타냅니다.

다양한 확률분포의 활용

다양한 확률분포는 현실 세계의 다양한 현상을 모델링하고 분석하는 데 강력한 도구로 활용됩니다.

통신 시스템: 통화량 모델링 (포아송 분포), 통신 오류 발생 빈도 분석 (이항 분포)
금융: 주가 변동 모델링 (정규 분포 또는 변형된 형태), 사건 발생 시간 분석 (지수 분포)
제조업: 제품 불량률 분석 (이항 분포), 기계 고장 시간 분석 (지수 분포)
생물학: 유전자 변이 발생 빈도 분석 (포아송 분포), 생존 시간 분석 (지수 분포)
마케팅: 고객 유입 모델링 (포아송 분포), 구매 전환율 분석 (베르누이 분포, 이항 분포)
보험: 사고 발생 건수 모델링 (포아송 분포), 손실액 모델링 (다양한 연속 분포)