0. 시작하면서
이번 장에서는 확률에 대해서 이야기를 해보려 합니다. 통계에 대한 이야기를 하기 위해서는 빠질 수 없는 주제이고, 확률을 어떻게 수학적으로 표현하는 지를 살펴보도록 하겠습니다.
1. 확률
일상에서 우리는 어떤 일이 일어날 가능성에 대해서 "확률은 ~%"야 라고 이야기 할 만큼 일어날 일에 대한 가능성이나 믿음의 척도(?)로 사용합니다. 실제 사전에서도 어떤 일이 일어날 가능성 또는 개연성으로 정의하고 있습니다. 이 만큼 확률이라고 하는 용어는 우리 일상에서 많이 사용되고 있는데, 이를 통계학에서는 어떻게 다루는 지를 아래에서 상세하게 알아보도록 하죠.
1.1 확률 표본, 표본 공간 그리고 사건
확률을 수학적으로, 통계학적으로 표현하는 방법에 앞서, 정의에서 사용되는 용어인 확률 표본, 표본공간, 사건이라는 단어의 정의를 알아보고 확률에 대한 이야기를 이어가도록 하겠습니다.
먼저 확률 표본과 표본 공간에 대해서 알아보도록 하겠습니다. 확률 표본(Sample)이라고 하는 것은 이전 장에서 말한 표본과 개념은 유사하지만, 확률적 문제에서 발생할 수 있는 하나의 현상 또는 선택될 수 있는 하나의 경우를 의미합니다. 수식 상에서는 그리스문자 중 오메가(Ω)를 사용해서 표현합니다.
표본이 결정되고, 선택된 현상에 대해 통계적 실험을 진행한다고 가정할 때, 나타날 수 있는 모든 결과들의 집합을 가리켜 표본 공간(Sample Space)이라고 합니다. 쉽게 말해서 사건에 대한 모든 표본의 집합이라고 할 수 있습니다. 또한 표본 공간을 정의한다는 의미가 우리에게 고려하는 범위에서 어떤 표본(경우, 현상)이 가능하고 어떤 표본이 가능하고, 가능하지 않은가를 정의하는 작업을 의미합니다.
그리고 위에서 이야기했듯이, 표본 공간을 설정하고, 통계적 실험을 진행하게 되면 결과가 나오게 되는데, 이 중에는 크게 현상이 발생한 경우와 발생하지 않은 경우로 나눠볼 수 있습니다. 이때, 우리가 관심 있게 봐야 할 표본 집합을 가리켜 사건(Event)라고 부릅니다. 수학적인 기호로는 알파벳 대문자(A, B, C, ...)를 사용해서 표현합니다.
1.2 확률
이제 확률에 대해서 본격적으로 알아보도록 하겠습니다. 앞서 이 글의 시작에서도 이야기했지만, 사전적으로 어떤 일이 일어날 가능성 또는 개연성이라고 했지만, 쉽게 보면, 어떤 현상(사건)을 입력으로 넣으면 숫자가 출력값으로 나오는 함수의 일종으로도 표현할 수 있습니다.
표본공간의 모든 사건의 집합에 대해서 일어날 가능성의 척도이기 때문인데, 이를 수학적으로 표현하면 아래와 같은 수식으로 나타냅니다.
$P(A)=\frac{사건 A의 경우의 수}{표본공간(전체집합)의 경우의 수}$
물론 위의 수식이 만족하려면, 우리가 표본 공간(전체 집합)에 대한 숫자를 알고 있는, 유한 집합인 경우에는 성립합니다. 그리고 그때의 확률을 가리켜 균일 확률이라고 부릅니다. 하지만, 표본 집합이 너무 큰 경우라면 어떨까요? 또, 각 사건에 대한 결과가 동일하지 않다면 어떻게 확률을 구할까요? 이를 위해 등장한 것이 통계적 확률입니다. 우선 통계적 확률을 설명하기 전에, 앞서 사건 A에 대한 상대 도수를 먼저 계산해 보도록 하겠습니다. 상대 도수는 N번의 실험동안 사건 A가 발생할 횟수를 가리키며, 이를 n(A)라고 가정할 때, 이때의 상대 도수를 계산하면 아래와 같이 표현할 수 있습니다.
$사건 A의 상대도수=\frac{n(A)}{N}$
만약 위의 실험을 무한히 실행하면, 사건 A가 발생할 확률, 즉, 사건 A에 대한 상대도수의 극한으로 확률을 표현하는 방법이 통계적 확률입니다.
$P(A)=\lim _{N to ∞}^{ }{\frac{n(A)}{N}}$
한 편, 확률에 대한 정의는 직관적이지만 엄밀하지 못하다는 단점도 존재합니다. 이에 대해 러시아의 수학자 콜모고로프는 공리적 방법을 통해 아래와 같은 3가지 특성을 갖는다고 정의했는데, 이를 "콜모고로프의 공리"라고 부릅니다.
1. 모든 사건에 대해 확률은 실수이고, 0 또는 양수이다.
2. 표본 공간(전체 집합)이라는 사건(부분 집합)에 대해 확률은 1이다.
3. 공통 원소가 없는 두 사건(상호배반적인 사건들)의 합집합은 각 사건별 확률의 합과 같다.
1.3 조건부 확률과 독립사건
확률의 정의와 관련해 마지막으로 다룰 이야기는 조건부 확률과 독립 사건입니다. 일상에서도 우리에게는 항상 1개의 사건만 일어나지 않고, 여러 개의 사건이 동시다발적으로 발생할 수도 있는데, 이를 수학적으로 풀어낸 것이 지금부터 이야기할 조건부 확률입니다. 조건부 확률은 두 사건 A, B가 존재하고, 사건 A가 발생했을 때, 사건 B가 동시에 발생할 가능성을 의미합니다. 이는 A라는 사건과 B라는 사건 간의 연관성을 나타내는 척도이며, 수식으로는 아래와 같이 표현합니다.
$P(A|B)=\frac{P(A\cap B)}{P(A)}$
위의 수식에서 중요한 점은 사건 A가 발생했을 때가 전제 조건이기에 사건 A의 발생할 확률은 0보다 커야 합니다. 하지만, 만약 사건 A가 일어난 것과는 별개로 사건 B가 발생한다면 어떻게 될까요? 이럴 경우, 동시에 발생하는 것이기 때문에 두 사건이 발생할 각각의 확률에 대한 곱과 동일해집니다. 따라서 이때의 조건부 확률은 사건 A의 확률 혹은 사건 B의 확률 자체가 됩니다. 이를 가리켜 두 사건은 서로 독립 사건이라고 표현하며, 수식으로는 아래와 같이 나타냅니다.
$P(A|B)=P(A) \cdot P{B}$
2. 확률 변수
다음으로는 확률에 대한 이야기를 할 때, 확률 다음으로 많이 다뤄지는 주제인 확률 변수에 대해서 이야기하겠습니다. 통계학뿐만 아니라, 머신러닝 및 딥러닝 등 확률을 다루는 분야에 있어서 많이 활용이 되는 내용이기 때문에 반드시 알고 넘어가야 하는 주제이며, 잘 모르는 상태에서 모델의 학습을 진행할 경우 엉뚱한 결과가 나올 수도 있기 때문에 중요한 주제입니다.
2.1 확률 변수란?
우선 확률 변수는 말 그대로 확률 현상에 의해서 결과 값이 변하는 수를 의미한다. 여기서 말하는 확률 현상이란, 결괏값들의 종류는 알지만, 실제로 사건이 발생했을 때 어떤 값이 나오는지 모르는 상황을 의미합니다. 예를 들어, 주사위는 1~6까지의 값이 있다는 사실은 알지만, 주사위를 굴리게 되면, 어떤 숫자가 나오는지는 굴려서 나와야 알 수 있기 때문에, 굴리기 전까지는 모르는 상황을 가리켜 확률 현상이라고 부릅니다. 그리고 확률 변수는 이러한 확률 현상에 의해 실수값을 가지는 결과를 만들어 내는 수라고 할 수 있습니다. 확률 변수를 한마디로 정리해 보자면, 아래와 같이 말할 수 있습니다.
확률변수
일정한 확률을 갖고 일어나는 사건에 수치가 부여된 것
정의역이 표본공간(확률공간)이고, 치역이 실수 값인 함수의 일종
한 편, 확률 변수에는 표본 공간의 범위가 이산적인가, 연속적인가 즉, 셀 수 있는지의 여부에 따라 크게 이산확률분포와 연속확률분포로 나누어 볼 수 있습니다.
2.2.1 이산확률변수
먼저 이산확률변수에 대해 이야기해 보겠습니다. 앞서 언급했듯이, 표본 공간의 범위가 유한한 경우에 그에 대한 확률 변수를 의미하며, 사건의 확률이 사건들이 속한 점들의 확률 합으로 표현 가능한 확률변수라고 정의할 수 있습니다.
쉬운 예시로 동전을 10번 던질 때, 앞면이 나올 확률의 크기와 같이 각 사건이 발생할 확률의 합과 같습니다. 그리고 각 사건별 확률의 크기를 가리켜 확률질량함수라고 부르며, 대표적인 종류로는 베르누이 확률분포, 이상분포, 기하분포, 다항분포, 포아송분포 등이 존재합니다.
2.2.2 연속확률변수
다음으로는 연속확률변수에 대해 살펴보겠습니다. 앞서 살펴본 이산확률변수와는 반대로 표본 공간의 범위가 무한한 경우의 확률변수를 의미하며, 사건의 확률이 해당 사건 위에서 0보다 큰 값을 갖는 함수의 면젹으로 표현됩니다. 그리고 측정되는 결괏값을 가리켜 확률밀도함수라고 부르며, 대표적인 종류로는 정규분포, 균일분포, 지수분포, 카이제곱분포 등이 존재합니다.
2.2 기댓값과 분산
마지막으로 확률변수에서의 기댓값과 분산에 대해서 알아보도록 하죠. 확률론에서 기댓값이란, 각 사건이 벌어졌을 때의 이득과 해당 사건이 벌어질 확률을 곱한 것을 전체 사건에 대해 합산한 결과를 의미합니다. 그리고 수식으로 표현하자면 아래와 같이 나타냅니다.
$E[X]=\sum _{}^{}xP(x)$
만약 각 사건이 발생하는 확률이 동일하다면, 전체 사건에 대한 평균이라고 볼 수 있습니다. 기댓값이 사용되는 이유는 특정 사건에 대해서 1번 시행된 결과를 통해 나온 결과가 일반적이라고 볼 수 없기 때문에 여러 시행을 거쳐야 하며, 그에 대한 결과들의 평균으로 비교해야 하기 때문에 등장하였습니다.
한 편, 기댓값만큼 많이 사용되는 다른 지표로는 분산이 있습니다. 앞서 이야기한 기댓값은 분포의 평균을 나타내는 지표였다면, 분산은 데이터가 얼마나 고르게 퍼져있는지, 평균으로부터 얼마나 떨어져 있는지에 대한 지표입니다. 이를 수학적으로 표현하자면 아래와 같습니다.
$Var(X)=E[{(x-\mu)}^2]=E[{X}^2]-E{[X]}^2$
그리고 데이터의 분포가 너무 넓을 경우, 이를 분산으로 표현하게 되면 숫자가 크게 나오고, 일정하지 않을 가능성이 있기 때문에, 이를 위해 분산에 제곱근을 씌워 데이터를 점과 점 사이의 거리로 표현하는 지표가 있는데, 이를 표준편차라고 부릅니다.
$SD[X]=\sqrt{Var[X]}$
이번 장에서는 확률에 대한 기본적인 용어들과 정의들에 대해서 이야기해 보았습니다. 다음 장부터는 이전까지 배운 모집단, 표본과 확률에 대한 개념을 어떻게 통계적인 분석에 적용해 보는지, 통계적인 추정과 가설검정에 대해서 이야기하도록 하겠습니다.
[참고자료]
https://datascienceschool.net/02%20mathematics/06.02%20%ED%99%95%EB%A5%A0%EC%9D%98%20%EC%88%98%ED%95%99%EC%A0%81%20%EC%A0%95%EC%9D%98%EC%99%80%20%EC%9D%98%EB%AF%B8.html
https://m.blog.naver.com/mykepzzang/221857243092
https://thebook.io/080246/0379/
'Data > Data Science 📊' 카테고리의 다른 글
[Data Analysis] 통계분석Ⅳ: 추정 & 가설검정 - 실습편 (0) | 2024.08.01 |
---|---|
[Data Analysis] 통계분석Ⅲ: 추정 & 가설검정 - 이론편 (0) | 2024.07.31 |
[Data Analysis] 통계 분석Ⅰ: 모집단 & 표본 (0) | 2024.07.31 |
[Data Analysis] 데이터 전처리 Ⅱ: 정규화, 표준화 (0) | 2024.07.31 |
[Data Analysis] 데이터 전처리 Ⅰ : 결측치 & 범주형 (0) | 2024.07.30 |