통계학

표본추출

표본추출의 기본 원리

경제성과 효율성: 모집단이 매우 크거나 지리적으로 넓게 분포되어 있는 경우, 표본조사는 전수조사에 비해 훨씬 적은 비용과 시간, 인력으로 효율적인 데이터 수집이 가능합니다.
정확성 확보: 숙련된 조사원을 활용하여 표본조사를 신중하게 설계하고 실행하면, 오히려 부주의한 전수조사보다 더 정확한 정보를 얻을 수 있습니다. 표본 규모가 적어 조사 품질 관리가 용이하기 때문입니다.
파괴적 조사: 제품의 수명을 시험하거나 특정 의료 시술의 효과를 평가하는 등 모집단 전체를 대상으로 할 수 없는 파괴적인 조사의 경우, 표본추출은 필수적인 방법입니다.
시간 제약: 신속한 의사결정이 요구되는 상황에서는 전체 모집단을 조사할 시간적 여유가 없으므로, 표본조사를 통해 빠르게 필요한 정보를 확보할 수 있습니다.

확률 표본추출

단순 무작위 추출 (Simple Random Sampling, SRS): 모집단의 각 요소가 표본으로 선택될 확률이 동일한 방법입니다. 제비뽑기, 난수표, 난수 생성기 등을 이용하여 무작위로 표본을 추출합니다. 이해하기 쉽고 편향을 최소화할 수 있다는 장점이 있지만, 모집단 규모가 크거나 이질적인 특성을 가질 경우 대표성을 확보하기 어려울 수 있습니다.
계통 추출 (Systematic Sampling): 모집단의 요소들을 일정한 순서대로 나열한 후, 첫 번째 요소를 무작위로 선택하고 그 이후에는 일정한 간격으로 표본을 추출하는 방법입니다. 단순 무작위 추출보다 간편하게 표본을 추출할 수 있지만, 모집단에 주기적인 패턴이 존재할 경우 편향이 발생할 수 있습니다.
층화 추출 (Stratified Sampling): 모집단을 특정 기준(성별, 연령, 소득 등)에 따라 서로 동질적인 여러 개의 층(strata)으로 나누고, 각 층에서 단순 무작위 추출 또는 계통 추출 방법으로 표본을 추출하는 방법입니다. 각 층의 특성을 반영하여 표본의 대표성을 높이고 표본 오차를 줄일 수 있습니다. 각 층의 비율대로 표본을 추출하는 비례 층화 추출과, 분석의 효율성을 위해 각 층에서 동일한 수의 표본을 추출하는 비비례 층화 추출이 있습니다.
군집 추출 (Cluster Sampling): 모집단을 서로 이질적인 요소들을 포함하는 여러 개의 군집(cluster)으로 나누고, 이 중에서 일부 군집을 무작위로 선택한 후 선택된 군집 내의 모든 요소를 조사하거나 다시 표본을 추출하는 방법입니다. 지리적으로 넓게 흩어져 있는 모집단을 조사할 때 비용과 시간을 절약할 수 있지만, 군집 간의 동질성이 높을 경우 표본 오차가 커질 수 있습니다.
다단계 추출 (Multi-stage Sampling): 위에서 설명한 여러 가지 확률 추출 방법을 단계적으로 결합하여 사용하는 방법입니다. 예를 들어, 전국 규모의 조사를 수행할 때, 먼저 시/도를 무작위로 추출하고, 추출된 시/도 내에서 구/군을 무작위로 

비확률 표본추출

편의 추출 (Convenience Sampling): 연구자가 쉽게 접근할 수 있는 대상을 중심으로 표본을 추출하는 방법입니다. 예를 들어, 길거리 설문조사, 온라인 설문조사 등이 편의 추출에 해당합니다. 간편하고 비용이 저렴하지만, 표본이 모집단을 대표하지 못할 가능성이 매우 높습니다.
할당 추출 (Quota Sampling): 연구자가 모집단의 특정 특성(성별, 연령, 교육 수준 등)의 비율을 미리 정하고, 이 비율에 맞춰 편의적으로 표본을 추출하는 방법입니다. 모집단의 구성 비율을 어느 정도 반영할 수 있지만, 표본 내에서의 선택은 여전히 주관적으로 이루어집니다.
판단 추출 (Judgment Sampling 또는 Purposive Sampling): 연구자가 연구 목적에 가장 적합하다고 판단되는 대상을 의도적으로 선택하여 표본을 구성하는 방법입니다. 특정 분야의 전문가 집단을 대상으로 하는 조사 등에 활용될 수 있지만, 연구자의 주관이 개입되어 편향이 발생할 수 있습니다.
눈덩이 추출 (Snowball Sampling): 초기 표본을 선정한 후, 이들에게서 알고 있는 다른 적합한 대상자를 소개받는 방식으로 표본 크기를 늘려나가는 방법입니다. 연구 대상자를 찾기 어려운 특정 집단(예: 희귀 질환 환자, 특정 범죄 경험자)을 조사할 때 유용하지만, 초기 표본의 특성에 따라 편향이 발생할 수 있습니다.

표본 크기 결정의 중요성과 영향 요인

통계적 검정력: 표본 크기가 클수록 통계적 검정력이 증가하여, 실제로 존재하는 효과나 차이를 통계적으로 유의미하게 발견할 확률이 높아집니다.
정확성: 표본 크기가 클수록 표본 통계량이 모집단 모수를 더 정확하게 추정할 가능성이 높아집니다. 표본 오차가 줄어들어 모집단의 실제 값에 더 가까운 결과를 얻을 수 있습니다.
연구의 목적: 탐색적 연구인지, 기술적 연구인지, 가설 검증 연구인지에 따라 요구되는 표본 크기가 달라질 수 있습니다. 일반적으로 가설 검증 연구는 더 큰 표본 크기를 요구합니다.
모집단의 변동성: 모집단의 특성이 동질적일수록 작은 표본 크기로도 모집단을 대표할 수 있지만, 이질적일수록 더 큰 표본 크기가 필요합니다.
허용 오차: 연구자가 허용할 수 있는 표본 오차의 크기에 따라 필요한 표본 크기가 달라집니다. 허용 오차가 작을수록 더 큰 표본 크기가 요구됩니다.
신뢰 수준: 모집단 모수를 추정할 때 원하는 신뢰 수준(일반적으로 95% 또는 99%)에 따라 필요한 표본 크기가 달라집니다. 신뢰 수준이 높을수록 더 큰 표본 크기가 요구됩니다.
가용 자원: 연구 예산, 시간, 인력 등 가용 자원에 따라 현실적으로 수집 가능한 표본 크기가 제한될 수 있습니다.

표본추출 과정에서의 잠재적 오류와 편향

표본추출 프레임 오류 (Sampling Frame Error): 모집단의 실제 구성원과 표본추출 목록(표본추출 프레임)이 일치하지 않아 발생하는 오류입니다. 표본추출 프레임에 모집단의 일부가 누락되거나, 모집단에 속하지 않는 요소가 포함될 수 있습니다.
선택 편향 (Selection Bias): 표본 추출 과정에서 특정 특성을 가진 모집단 구성원이 표본으로 더 많이 또는 더 적게 선택될 가능성이 있어 발생하는 편향입니다. 비확률 표본추출 방법에서 흔히 발생하며, 확률 표본추출 방법에서도 부적절한 절차로 인해 발생할 수 있습니다.
무응답 편향 (Non-response Bias): 선택된 표본 구성원 중 일부가 조사에 응답하지 않아 발생하는 편향입니다. 응답자와 비응답자 간에 연구 변수에 대한 태도나 특성에 차이가 있을 경우 발생하며, 표본의 대표성을 저해합니다.
생존 편향 (Survivorship Bias): 특정 시점까지 '생존'한 대상만을 분석하여 잘못된 결론을 도출하는 편향입니다. 과거의 실패 사례는 고려되지 않고 성공 사례만을 분석할 때 발생하기 쉽습니다.
자발적 응답 편향 (Voluntary Response Bias): 조사에 자발적으로 참여하는 사람들의 특성이 전체 모집단의 특성과 다를 경우 발생하는 편향입니다. 특히 온라인 설문조사 등에서 두드러지게 나타날 수 있습니다.