Data/Data Science 📊

[Data Analysis] 통계 분석Ⅰ: 모집단 & 표본

SLYK1D 2024. 7. 31. 22:20
728x90
반응형

1. 통계학이란?

데이터 분석에 대해서 공부하게 되면, 통계적인 지식이 반드시 필요하는 것을 알 수 있습니다. 이번 장부터는 통계 분석에 대해 이야기를 할 텐데, 시작하기에 앞서 통계학에 대한 내용을 먼저 알아보도록 하겠습니다. 

통계학
산술적 방법을 기초로 하여, 주로 다량의 데이터를 관찰하고, 정리 및 분석하는 방법을 연구하는 수학의 한 분야
즉, 자료로부터 유용한 정보를 이끌어내는 학문이라고 할 수 있다. 유용한 정보를 이끌어내는 작업에는 자료의 수집과 정리, 그리고 이를 해석하는 방법 등을 모두 포함한다.

 

2. 모집단과 표본

2.1 모집단

그렇다면 통계학에서 알고 싶은 것은 무엇일까요? 앞선 정의에서처럼 유용한 정보를 이끌어 내는 것이 목표이기 때문에, 이러한 정보를 얻을 수 있는 대상이 필요하고, 대상을 통해 어떤 현상을 살펴볼지, 살펴본 현상을 통해 어떤 결과를 말할 수 있는지에 대한 주장을 정의해야 합니다. 

통계학에서는 살펴볼 대상을 가리켜 모집단이라고 부르며, 이를 통해 살펴볼 현상과 결과에 대한 주장을 가설이라고 부릅니다. 가설에 대한 건 조금 뒤에 살펴보기로 하고, 먼저 모집단에 대해 알아보겠습니다. 앞서 설명한 것처럼, 모집단은 우리가 살펴볼 대상, 알고자 하는 전체 집단을 의미합니다. 그리고 모집단을 구성하는 각각의 개체를 가리켜 원소 혹은 추출 단위라고 부릅니다. 

한편, 모집단을 구성하는 원소의 개수 즉, 모집단의 크기에 따라 크게 유한 모집단과 무한 모집단으로 나눠볼 수 있는데, 앞서 통계학의 정의에서 설명했듯이, 다량의 데이터를 관찰하는 작업을 하게 됩니다. 결과적으로 모집단이 관찰 대상이고, 이를 모두 관찰하는 작업을 한다는 의미인데, 이렇게 모집단 전체를 대상으로 하는 관찰 및 조사 방법을 가리켜 총조사라고 부릅니다. 

총조사를 수행하게 되면, 모집단의 전체를 알 수 있고, 데이터가 어떤 특징을 갖는지 확인할 수 있지만, 모집단의 크기가 클 수록 그만큼 많은 시간과 비용을 소모해야 한다는 단점이 있습니다. 

 

2.2 표본

우리가 가설을 정의하기 위해서는 모집단이 어떤 특징을 갖는 지를 알아야 합니다. 하지만, 앞서 이야기했던 총조사의 단점이 있기에 전체 데이터를 다 살펴보는 것은 어렵습니다. 이에 대해 "모집단이라는 것은 구성하는 원소들의 전체니까, 구성원들의 일부만 살표 보면 전체에 대한 특징을 유추할 수 있지 않을까?"라는 방법이 나오게 됩니다. 

여기서 조사하는 모집단의 일부를 가리켜 표본이라고 하며, 모집단의 특성은 모수라고 부르고, 표본이 같은 모수를 통해 모집단을 추론하는 방법을 가리켜 표본조사라고 부릅니다.

 

2.3 표본 추출 방법

지금까지의 내용을 정리해보면, 표본이라는 것은 관찰할 대상인 모집단의 구성 원소들 중 일부를 골라낸 부분집단이며, 모집단의 특성인 모수를 갖고 있다고 설명했습니다. 그렇다면 표본은 어떻게 골라야 할까요? 이에 대해서 표본을 추출하는 방법을 찾아보면 크게 4가지로 분류할 수 있으며, 각 방법별 구체적인 설명은 다음과 같습니다. 

2.3.1 단순 랜덤 추출법

단순 랜덤 추출법은 전체 모집단을 대상으로 n개의 요소에 각각 번호를 부여하고, 임의로 선택해서 표본을 추출하는 방법입니다. 대표적인 예시로는 제비 뽑기 방식을 들 수 있는데, 크기가 n인 모든 가능한 표본과 모집단의 각 원소에 동등한 산출 기회를 준다는 특징이 있습니다. 

2.3.2 계통 추출법

계통 추출법은 n개의 원소에 번호를 부여하고, 순서대로 나열한 후 K개식 N개의 구간으로 나눕니다. 이 후 첫 구간에서 임의로 하나를 선택한 뒤, K 개씩 건너뛰며 표본을 추출합니다.

2.3.3 집락 추출법

n개의 집락이 결합된 형태로 구성하며, 각 집단에서 원소들에게 일련번호를 부여할 수 있는 경우에 이용됩니다. 일부 집락을 랜덤으로 선택하고, 선택된 각 집락에서 표본을 임의로 추출합니다. 

2.3.4 층화 추출법

상당히 이질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표할 수 있도록 표본을 추출하는 방식입니다. 서로 유사한 것끼리는 몇 개의 층으로 나눈 후, 각 층에서 랜덤 하게 추출합니다.

 

2.4 자료의 유형과 측정방법

마지막으로 자료의 유형과 추출한 샘플을 가지고 어떻게 측정할 지에 대한 방법을 살펴보겠습니다. 우리가 전수조사 혹은 표본 조사를 수행하게되면, 추출된 원소들 혹은 실험 단위로부터 주어진 목적에 적합한 결과가 모이게 됩니다. 여기서 표본조사 혹은 실험을 통해 원소나 실험단위로 주어진 목적에 적합한 결과를 모으는 행위를 측정이라고 부르며, 이에 대한 결과를 자료 혹은 관측치라고 합니다. 

자료에 대해서 유형별로 나눠보자면, 크게 질적자료와 양적자료로 나눕니다. 질적자료는 범주형 자료라고도 부르는데, 이는 관측 대상이 어느 범위에 포함되는 지를 나타내는 유형의 데이터들을 의미합니다. 대표적인 예시로는 성별, 혈액형 등이 있습니다. 반면, 양적자료는 수치적으로 표현할 수 있는 데이터들을 의미하며,  대표적으로 나이, 몸무게 등이 있습니다. 

하지만, 여기서 주의해야할 점은 성별이나 혈액형 등은 무조건 질적자료이므로 양적자료로 표현할 수 없다는 것이 아니라는 점입니다. 예를 들어, 성별의 경우, 남성을 1, 여성을 2로 표시하거나, 혈액형을 각각 1~4 사이의 값으로 표현할 수도 있다는 점입니다.

이에 대해 자료를 어떻게 다루는지에 대한 기준은 아래 내용과 같이 4가지로 분류할 수 있습니다. 

2.4.1 명목척도

측정 대상이 어느 집단에 속하는 지 분류할 때 사용되는 척도

2.4.2 순서척도

서열척도라고도 부르며, 측정 대상의 특성이 가지는 설열관계로 관측하는 척도의 선택사항이 일정한 순서로 되어있는 경우에 사용합니다. 

2.4.3 구간척도

등간척도라고도 부르며, 측정 대상이 갖고 있는 속의 양을 조절합니다. 측정 결과가 숫자로 표현되지만, 해당 속석이 전혀 없는 상태인 절대적 원점이 없습니다.

2.4.4 비율척도

절대적 기준인 0 값이 존재하고, 모든 사칙연산이 가능합니다. 또한 측정 척도들 중 제일 많은 정보를 갖고 있는 척도이기도 합니다.


[참고자료]
https://jennainsight.tistory.com/entry/%ED%86%B5%EA%B3%84-%ED%91%9C%EB%B3%B8%EC%B6%94%EC%B6%9C%EB%B0%A9%EB%B2%95-%EB%8B%A8%EC%88%9C%EB%9E%9C%EB%8D%A4-%EA%B3%84%ED%86%B5%EC%B6%94%EC%B6%9C%EB%B2%95-%EC%A7%91%EB%9D%BD%EC%B6%94%EC%B6%9C%EB%B2%95-%EC%B8%B5%ED%99%94%EC%B6%94%EC%B6%9C%EB%B2%95-%EC%B0%A8%EC%9D%B4%EC%A0%90

https://compflow.blogspot.com/2010/10/blog-post_28.html

 

 

통계 표본추출방법 (단순랜덤, 계통추출법, 집락추출법, 층화추출법 차이점)

통계는 사회의 여러 현상을 설명하는 숫자이다. 최근에는 데이터 처리속도와 기술의 발달로 표본이 아닌 전수조사도 가능해졌다고 하지만, 전통적인 통계는 모집단 전체를 대표하는 표본을 추

jennainsight.tistory.com

 

 

 

728x90
반응형